Dokumentų analizatorius API, skirtos Python

Atvirojo kodo Python API, skirtos dokumentų analizei

Atraskite atvirojo kodo Python bibliotekas, pritaikytas analizuoti ir išgauti tekstą, vaizdus ir kitą informaciją iš įvairių dokumentų formatų – PDF, DOC/DOCX, XLS/XLSX ir HTML ir kt.

„Python Include“ dokumentų analizavimo API

docTR 深層学習によるテキスト検出・認識のためのオープンソースPython API

EasyOCR Įmonėms skirtas OCR su palaikymu 80+ kalbų ir iš anksto apmokytais modeliais tikslaus teksto išgavimo

PaddleOCR Patikimas OCR įrankis, palaikantis 100+ kalbų su iš anksto apmokytais modeliais

pdfminer.six Python biblioteka, skirta analizuoti, skaityti ir ištraukti tekstą su formatavimo informacija iš PDF dokumentų.

PyMuPDF Python PDF analizavimo biblioteka, skirta skaityti, analizuoti ir išgauti tekstą, vaizdus, lenteles ir kt. iš PDF dokumentų.

pypdf Python PDF analizavimo biblioteka, skirta skaityti PDF failus ir iš PDF dokumentų išgauti tekstą, vaizdus ir priedus.

PyTesseract Atvirojo kodo Python API teksto išgavimui iš vaizdų naudojant Tesseract OCR.

spaCy Greita ir efektyvi NLP biblioteka su iš anksto apmokytais modeliais 20+ kalbų.

Keras-OCR API Python leggera per il riconoscimento ottico dei caratteri (OCR) utilizzando Keras e TensorFlow.

trOCR Transformeriais pagrįstas OCR modelis daugiakalbių ir rankraščio teksto atpažinimui su nenugalima tikslumu