[تجزیه کننده اسناد API برای پایتون APIهای منبع باز پایتون برای تجزیه اسناد کتابخانههای منبع باز Python را که برای تجزیه و استخراج متن، تصاویر و سایر اطلاعات از طیف وسیعی از قالبهای سند - PDF، DOC/DOCX، XLS/XLSX و HTML طراحی شدهاند، طراحی کنید. APIهای تجزیه کننده اسناد برای پایتون شامل docTR API متنباز پایتون برای شناسایی و تشخیص متن با استفاده از یادگیری عمیق. EasyOCR OCR سازمانی با پشتیبانی از 80+ زبان و مدلهای از پیش آموزش دیده برای استخراج دقیق متن pdfminer.six کتابخانه پایتون برای تجزیه، خواندن و استخراج متن با اطلاعات قالببندی از اسناد PDF. PyMuPDF کتابخانه تجزیه کننده PDF در پایتون برای خواندن، تجزیه و استخراج متن، تصاویر و جداول و غیره از اسناد PDF. pypdf کتابخانه تجزیهکننده PDF پایتون برای خواندن PDF و استخراج متن، تصاویر و پیوستها از اسناد PDF. PyTesseract یک API متنباز پایتون برای استخراج متن از تصاویر با استفاده از Tesseract OCR.]