تجزیه کننده اسناد API برای پایتون

APIهای منبع باز پایتون برای تجزیه اسناد

کتابخانه‌های منبع باز Python را که برای تجزیه و استخراج متن، تصاویر و سایر اطلاعات از طیف وسیعی از قالب‌های سند - PDF، DOC/DOCX، XLS/XLSX و HTML طراحی شده‌اند، طراحی کنید.

APIهای تجزیه کننده اسناد برای پایتون شامل

docTR API متن‌باز پایتون برای شناسایی و تشخیص متن با استفاده از یادگیری عمیق.

EasyOCR OCR سازمانی با پشتیبانی از 80+ زبان و مدل‌های از پیش آموزش دیده برای استخراج دقیق متن

PaddleOCR ابزارک قدرتمند OCR با پشتیبانی از ۱۰۰+ زبان و مدل‌های از پیش آموزش دیده

اسپاسی کتابخانه NLP سریع و کارآمد با مدل‌های از پیش آموزش دیده برای 20+ زبان

pdfminer.six کتابخانه پایتون برای تجزیه، خواندن و استخراج متن با اطلاعات قالب‌بندی از اسناد PDF.

PyMuPDF کتابخانه تجزیه کننده PDF در پایتون برای خواندن، تجزیه و استخراج متن، تصاویر و جداول و غیره از اسناد PDF.

pypdf کتابخانه تجزیه‌کننده PDF پایتون برای خواندن PDF و استخراج متن، تصاویر و پیوست‌ها از اسناد PDF.

PyTesseract یک API متن‌باز پایتون برای استخراج متن از تصاویر با استفاده از Tesseract OCR.

Keras-OCR یک API پایتون سبک‌وزن برای تشخیص نوری کاراکترها (OCR) با استفاده از Keras و TensorFlow.

trOCR مدل OCR مبتنی بر ترنسفورمر برای تشخیص متن چندزبانه و دستنویس با دقت بی‌نظیر