פתרון OCR מבוסס למידה עמוקה ב-Python

השתמש ב-docTR לביצוע חילוץ וזיהוי טקסט מדויק מתמונות.

מהו ממשק ה-API של docTR עבור Python?

docTR (זיהוי טקסט במסמכים) היא ספריית זיהוי תווים אופטי (OCR) בקוד פתוח מבוססת למידה עמוקה ב-Python. היא מספקת זיהוי וזיהוי טקסט מתקדם למסמכים סרוקים, תמונות וקבצי PDF. באמצעות ארכיטקטורות למידה עמוקה מודרניות, docTR מבטיח דיוק גבוה ויעילות בחילוץ טקסט תוך שמירה על מבנה המסמך.

docTR משמש באופן נרחב לדיגיטציה של מסמכים, חילוץ נתונים אוטומטי ויישומי זיהוי טקסט מבוססי בינה מלאכותית. הוא תומך במספר שפות, זיהוי כתב יד ותאוצה של GPU לשיפור הביצועים.

תכונות עיקריות של ממשק ה-API של docTR

OCR מתקדם מבוסס למידה עמוקה: משתמש ברשתות עצביות לזיהוי וזיהוי טקסט מדויק.
תמיכה בפורמטים מרובים: עובד בצורה חלקה עם תמונות, קבצי PDF ומסמכים סרוקים.
זיהוי כתב יד: מזהה ומחלץ טקסט כתוב ביד עם דיוק גבוה.
זיהוי בשפות מרובות: תומך במגוון שפות וכתבים.
מותאם למהירות: חילוץ טקסט יעיל עם תאוצה של GPU.
שומר על מבנה המסמך: שומר על המבנה במהלך זיהוי הטקסט.
סקיילבילי וקוד פתוח: חינמי לשימוש ומתוחזק באופן פעיל לשיפורים מתמידים.

התחלה עם ממשק ה-API של docTR

כדי להתקין את docTR, השתמש בפקודת pip הבאה:

התקנת docTR


pip install python-doctr

אם ברצונך לאפשר תאוצה של GPU לעיבוד מהיר יותר, התקן את התלות הנוספות:

התקנת תלות ל-GPU


pip install tensorflow-gpu torch torchvision

דוגמאות קוד לחילוץ טקסט באמצעות ממשק ה-API של docTR

להלן מספר דוגמאות המדגימות חילוץ טקסט מתמונות ומסמכים באמצעות docTR.

ממשק API של docTR ל-OCR

דוגמה 1: חילוץ טקסט מתמונה

דוגמה זו מדגימה כיצד לטעון תמונה, להחיל OCR עם docTR ולחלץ את הטקסט. הטקסט שחולץ כולל את מיקומו בתוך התמונה, מה שהופך אותו לשימושי לעיבוד מסמכים מובנה.

חילוץ טקסט מתמונה


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

דוגמה 2: עיבוד מסמך PDF מרובה עמודים

אם אתה צריך לחלץ טקסט מקובץ PDF המכיל מספר עמודים, docTR מפשט את התהליך. הדוגמה שלהלן מראה כיצד לחלץ טקסט מכל עמוד בצורה יעילה.

חילוץ טקסט מ-PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

דוגמה 3: זיהוי טקסט כתוב ביד

docTR יכול גם לזהות טקסט כתוב ביד, מה שהופך אותו לאידיאלי לדיגיטציה של הערות בכתב יד, טפסים או מסמכים היסטוריים. דוגמה זו מדגימה חילוץ טקסט ממסמך כתוב ביד סינתטי.

חילוץ טקסט כתוב ביד


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

סיכום

ממשק ה-API של docTR הוא פתרון OCR מתקדם מבוסס למידה עמוקה שמפשט את חילוץ הטקסט מתמונות, קבצי PDF ומסמכים כתובים ביד. הוא מבטיח דיוק גבוה תוך שמירה על מבנה המסמך, מה שהופך אותו לכלי חשוב לעיבוד מסמכים מבוסס בינה מלאכותית, אוטומציה וחילוץ נתונים.

בין אם אתה עובד על דיגיטציה של מסמכים, הזנת נתונים אוטומטית או זיהוי טקסט מבוסס בינה מלאכותית, docTR מספק פתרון גמיש ויעיל המותאם לצרכים שלך.