[ドキュメントパーサー Python 用 API ドキュメント解析用のオープンソース Python API PDF、DOC/DOCX、XLS/XLSX、HTML などのさまざまなドキュメント形式からテキスト、画像、その他の情報を解析および抽出するようにカスタマイズされたオープンソースの Python ライブラリを見つけてください。 PythonのドキュメントパーサーAPIには以下が含まれます docTR 深層学習を用いたテキスト検出・認識のためのオープンソースPython API EasyOCR 80以上の言語をサポートするエンタープライズ向けOCR、事前学習済みモデルで正確なテキスト抽出 pdfminer.six PDF ドキュメントから書式情報を含むテキストを解析、読み取り、抽出するための Python ライブラリ。 PyMuPDF PDF ドキュメントからテキスト、画像、表などを読み取り、解析し、抽出するための Python の PDF パーサー ライブラリ。 pypdf PDF を読み取り、PDF ドキュメントからテキスト、画像、添付ファイルを抽出する Python PDF パーサー ライブラリ。 PyTesseract Tesseract OCRを使用して画像からテキストを抽出するオープンソースのPython API。 Keras-OCR KerasとTensorFlowを使用した軽量なOCR(光学文字認識)Python API]