פתרון OCR מבוסס למידה עמוקה ב-Python
השתמש ב-docTR לביצוע חילוץ וזיהוי טקסט מדויק מתמונות.
מהו ממשק ה-API של docTR עבור Python?
docTR (זיהוי טקסט במסמכים) היא ספריית זיהוי תווים אופטי (OCR) בקוד פתוח מבוססת למידה עמוקה ב-Python. היא מספקת זיהוי וזיהוי טקסט מתקדם למסמכים סרוקים, תמונות וקבצי PDF. באמצעות ארכיטקטורות למידה עמוקה מודרניות, docTR מבטיח דיוק גבוה ויעילות בחילוץ טקסט תוך שמירה על מבנה המסמך.
docTR משמש באופן נרחב לדיגיטציה של מסמכים, חילוץ נתונים אוטומטי ויישומי זיהוי טקסט מבוססי בינה מלאכותית. הוא תומך במספר שפות, זיהוי כתב יד ותאוצה של GPU לשיפור הביצועים.
תכונות עיקריות של ממשק ה-API של docTR
- OCR מתקדם מבוסס למידה עמוקה: משתמש ברשתות עצביות לזיהוי וזיהוי טקסט מדויק.
- תמיכה בפורמטים מרובים: עובד בצורה חלקה עם תמונות, קבצי PDF ומסמכים סרוקים.
- זיהוי כתב יד: מזהה ומחלץ טקסט כתוב ביד עם דיוק גבוה.
- זיהוי בשפות מרובות: תומך במגוון שפות וכתבים.
- מותאם למהירות: חילוץ טקסט יעיל עם תאוצה של GPU.
- שומר על מבנה המסמך: שומר על המבנה במהלך זיהוי הטקסט.
- סקיילבילי וקוד פתוח: חינמי לשימוש ומתוחזק באופן פעיל לשיפורים מתמידים.
התחלה עם ממשק ה-API של docTR
כדי להתקין את docTR, השתמש בפקודת pip הבאה:
התקנת docTR
pip install python-doctr
אם ברצונך לאפשר תאוצה של GPU לעיבוד מהיר יותר, התקן את התלות הנוספות:
התקנת תלות ל-GPU
pip install tensorflow-gpu torch torchvision
דוגמאות קוד לחילוץ טקסט באמצעות ממשק ה-API של docTR
להלן מספר דוגמאות המדגימות חילוץ טקסט מתמונות ומסמכים באמצעות docTR.
דוגמה 1: חילוץ טקסט מתמונה
דוגמה זו מדגימה כיצד לטעון תמונה, להחיל OCR עם docTR ולחלץ את הטקסט. הטקסט שחולץ כולל את מיקומו בתוך התמונה, מה שהופך אותו לשימושי לעיבוד מסמכים מובנה.
חילוץ טקסט מתמונה
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
דוגמה 2: עיבוד מסמך PDF מרובה עמודים
אם אתה צריך לחלץ טקסט מקובץ PDF המכיל מספר עמודים, docTR מפשט את התהליך. הדוגמה שלהלן מראה כיצד לחלץ טקסט מכל עמוד בצורה יעילה.
חילוץ טקסט מ-PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
דוגמה 3: זיהוי טקסט כתוב ביד
docTR יכול גם לזהות טקסט כתוב ביד, מה שהופך אותו לאידיאלי לדיגיטציה של הערות בכתב יד, טפסים או מסמכים היסטוריים. דוגמה זו מדגימה חילוץ טקסט ממסמך כתוב ביד סינתטי.
חילוץ טקסט כתוב ביד
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
סיכום
ממשק ה-API של docTR הוא פתרון OCR מתקדם מבוסס למידה עמוקה שמפשט את חילוץ הטקסט מתמונות, קבצי PDF ומסמכים כתובים ביד. הוא מבטיח דיוק גבוה תוך שמירה על מבנה המסמך, מה שהופך אותו לכלי חשוב לעיבוד מסמכים מבוסס בינה מלאכותית, אוטומציה וחילוץ נתונים.
בין אם אתה עובד על דיגיטציה של מסמכים, הזנת נתונים אוטומטית או זיהוי טקסט מבוסס בינה מלאכותית, docTR מספק פתרון גמיש ויעיל המותאם לצרכים שלך.