Dokumenttolkare API:er för Python

Open Source Python API:er för att analysera dokument

Upptäck Python-bibliotek med öppen källkod som är skräddarsydda för att analysera och extrahera text, bilder och annan information från en rad dokumentformat - PDF, DOC/DOCX, XLS/XLSX & HTML etc.

Document Parser API:er för Python inkluderar

docTR Öppen källkod Python API för textdetektering och igenkänning med djupinlärning.

EasyOCR Enterprise-klar OCR med stöd för 80+ språk och förtränade modeller för exakt textextraktion.

PaddleOCR Robust OCR-verktyg med förtränade modeller för 100+ språk.

pdfminer.six Python-bibliotek för att analysera, läsa och extrahera text med formateringsinformation från PDF-dokument.

PyMuPDF PDF-parserbibliotek i Python för att läsa, analysera och extrahera text, bilder och tabeller etc. från PDF-dokument.

pypdf Python PDF-parserbibliotek för att läsa PDF-filer och extrahera text, bilder och bilagor från PDF-dokument.

PyTesseract Open-source Python API för att extrahera text från bilder med Tesseract OCR.

spaCy Snabb och effektiv NLP-bibliotek med förtränade modeller för 20+ språk.

Keras-OCR Lättvikts Python API för optisk teckenigenkänning (OCR) med Keras och TensorFlow.

trOCR Transformer-baserad OCR-modell för flerspråkig och handskriven text med oöverträffad noggrannhet.