حل OCR قائم على التعلم العميق في بايثون

استفد من docTR لاستخراج النصوص بدقة عالية من الصور.

ما هو docTR API لبايثون؟

docTR (التعرف على النصوص في المستندات) هو مكتبة مفتوحة المصدر تعتمد على التعلم العميق لاستخراج النصوص من الصور والمستندات الممسوحة ضوئيًا وملفات PDF.

يتم استخدام docTR على نطاق واسع في رقمنة المستندات، واستخراج البيانات تلقائيًا، والتعرف على النصوص المدعوم بالذكاء الاصطناعي.

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الميزات الرئيسية لواجهة docTR API

استخدام التعلم العميق: يوفر دقة عالية في اكتشاف النصوص والتعرف عليها.
دعم تنسيقات متعددة: يعمل مع الصور وملفات PDF والمستندات الممسوحة ضوئيًا.
التعرف على الكتابة اليدوية: استخراج النصوص المكتوبة بخط اليد بدقة.
يدعم عدة لغات: يعمل مع لغات وسكريبتات مختلفة.
أداء سريع: تسريع باستخدام وحدات معالجة الرسومات.

البدء مع docTR API

لتثبيت docTR، استخدم الأمر التالي:

تثبيت docTR


pip install python-doctr

لتفعيل تسريع GPU:

تثبيت متطلبات GPU


pip install tensorflow-gpu torch torchvision

أمثلة على استخراج النصوص باستخدام docTR API

أدناه أمثلة على استخراج النصوص من الصور والمستندات.

docTR API for OCR

المثال 1: استخراج النصوص من صورة

استخراج النصوص من صورة


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

المثال 2: معالجة مستند PDF متعدد الصفحات

استخراج النصوص من PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

المثال 3: التعرف على النصوص المكتوبة بخط اليد

استخراج النصوص المكتوبة بخط اليد


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

الخاتمة

docTR API هو حل قوي قائم على التعلم العميق لاستخراج النصوص بدقة عالية من المستندات والصور، مما يجعله أداة مفيدة لمعالجة المستندات المدعومة بالذكاء الاصطناعي.