ドキュメントパーサー Python 用 API

ドキュメント解析用のオープンソース Python API

PDF、DOC/DOCX、XLS/XLSX、HTML などのさまざまなドキュメント形式からテキスト、画像、その他の情報を解析および抽出するようにカスタマイズされたオープンソースの Python ライブラリを見つけてください。

PythonのドキュメントパーサーAPIには以下が含まれます

docTR 深層学習を用いたテキスト検出・認識のためのオープンソースPython API

EasyOCR 80以上の言語をサポートするエンタープライズ向けOCR、事前学習済みモデルで正確なテキスト抽出

PaddleOCR 100以上の言語をサポートする堅牢なOCRツールキット（事前学習済みモデル付き）

pdfminer.six PDF ドキュメントから書式情報を含むテキストを解析、読み取り、抽出するための Python ライブラリ。

PyMuPDF PDF ドキュメントからテキスト、画像、表などを読み取り、解析し、抽出するための Python の PDF パーサーライブラリ。

pypdf PDF を読み取り、PDF ドキュメントからテキスト、画像、添付ファイルを抽出する Python PDF パーサーライブラリ。

PyTesseract Tesseract OCRを使用して画像からテキストを抽出するオープンソースのPython API。

spaCy 20言語以上の事前学習済みモデルを備えた高速で効率的なNLPライブラリ

Keras-OCR KerasとTensorFlowを使用した軽量なOCR（光学文字認識）Python API

trOCR 多言語対応・手書き文字認識に優れたTransformerベースOCRモデル