文档解析器 Python 的 API

用于解析文档的开源 Python API

发现专门用于解析和提取各种文档格式（PDF、DOC/DOCX、XLS/XLSX 和 HTML 等）中的文本、图像和其他信息的开源 Python 库。

Python 的文档解析器 API 包括

docTR 基于深度学习的开源Python文本检测与识别API

EasyOCR 企业级OCR解决方案，支持80+种语言，提供预训练模型实现精准文本提取

PaddleOCR 支持100+语言的鲁棒OCR工具包，提供预训练模型

pdfminer.six Python 库用于解析、读取和提取 PDF 文档中带有格式信息的文本。

PyMuPDF Python 中的 PDF 解析器库，用于从 PDF 文档中读取、解析和提取文本、图像和表格等。

pypdf Python PDF 解析器库用于读取 PDF 并从 PDF 文档中提取文本、图像和附件。

PyTesseract 基于 Tesseract OCR 的开源 Python API，可从图像中提取文本。

spaCy 快速高效的 NLP 库，内置 20 多种语言的预训练模型。

Keras-OCR 基于Keras和TensorFlow的轻量级光学字符识别(OCR)Python API

trOCR 支持多语言和手写文本识别的Transformer OCR模型，准确率无与伦比。