راه‌حل شناسایی نویسه نوری مبتنی بر یادگیری عمیق در پایتون

با استفاده از docTR، استخراج و شناسایی متن از تصاویر را با دقت بالا انجام دهید.

API docTR در پایتون چیست؟

docTR (تشخیص متن سند) یک کتابخانه متن‌باز مبتنی بر یادگیری عمیق برای شناسایی نویسه نوری (OCR) در پایتون است. این کتابخانه امکان تشخیص و شناسایی متن را در اسناد اسکن‌شده، تصاویر و فایل‌های PDF با دقت بالا فراهم می‌کند. با بهره‌گیری از معماری‌های پیشرفته یادگیری عمیق، docTR دقت و کارایی بالایی را در استخراج متن ارائه می‌دهد و ساختار سند را حفظ می‌کند.

این ابزار برای دیجیتالی‌سازی اسناد، استخراج خودکار داده‌ها و کاربردهای پیشرفته تشخیص متن استفاده می‌شود. همچنین از چندین زبان، شناسایی دست‌خط و شتاب‌دهی GPU پشتیبانی می‌کند.

ویژگی‌های کلیدی API docTR

OCR مبتنی بر یادگیری عمیق: استفاده از شبکه‌های عصبی برای تشخیص و شناسایی دقیق متن.
پشتیبانی از چندین فرمت: سازگاری با تصاویر، فایل‌های PDF و اسناد اسکن‌شده.
شناسایی دست‌خط: قابلیت تشخیص و استخراج متن دست‌نویس با دقت بالا.
پشتیبانی از چندین زبان: توانایی شناسایی متون در زبان‌ها و خط‌های مختلف.
بهینه‌شده برای سرعت: استخراج سریع متن با استفاده از شتاب‌دهی GPU.
حفظ ساختار سند: تشخیص متن بدون تغییر ساختار سند.
متن‌باز و مقیاس‌پذیر: رایگان برای استفاده و در حال توسعه مداوم.

شروع کار با API docTR

برای نصب docTR، از دستور pip زیر استفاده کنید:

نصب docTR


pip install python-doctr

برای فعال‌سازی شتاب‌دهی GPU جهت پردازش سریع‌تر، بسته‌های اضافی زیر را نصب کنید:

نصب وابستگی‌های GPU


pip install tensorflow-gpu torch torchvision

نمونه کدهای استخراج متن با استفاده از API docTR

مثال ۱: استخراج متن از تصویر

استخراج متن از تصویر


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

مثال ۲: پردازش اسناد PDF چندصفحه‌ای

استخراج متن از PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

مثال ۳: تشخیص متن دست‌نویس

استخراج متن دست‌نویس


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

نتیجه‌گیری

API docTR یک راه‌حل قدرتمند OCR مبتنی بر یادگیری عمیق است که استخراج متن از تصاویر، فایل‌های PDF و اسناد دست‌نویس را تسهیل می‌کند. این ابزار دقت بالایی را در تشخیص متن ارائه داده و ساختار سند را حفظ می‌کند.

چه در حال کار بر روی دیجیتالی‌سازی اسناد، ورود خودکار داده‌ها یا تشخیص متن مبتنی بر هوش مصنوعی باشید، docTR یک راهکار انعطاف‌پذیر و کارآمد را فراهم می‌آورد.