PDF から HTML/XML への変換 Python ライブラリ
PDF ドキュメントを HTML および XML に変換するための無料のオープンソース Python ライブラリ。
pdfminer.6 とは何ですか?
pdfminer.six は、PDF ドキュメントを他の形式に変換するために使用できる無料のオープンソース Python ライブラリです。
主な PDF 変換機能の簡単なリストを次に示します。
- PDF から HTML への変換: ドキュメントの構造とレイアウトを維持しながら、PDF ドキュメントを HTML 形式に変換します。
- PDF から XML への変換: PDF ファイルを XML 形式に変換し、フォントやその他の要素を含むすべての詳細をキャプチャします。
pdfminer.six の使用を開始する
pypdf をインストールして使用するには、Python バージョン 3.6.0 以降が必要です。したがって、まず Python をインストールし、次に以下のコマンドを使用して、pip と 仮想環境あ>。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
マックOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ウィンドウズ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF を HTML に変換
以下のコード スニペットに示すように、ライブラリが提供する pdfminer.six ライブラリのextract_text_to_fp 関数 (出力タイプを html に設定) を使用して、PDF ドキュメントを HTML 形式に変換できます。
出力
次のスクリーンショットは、PDF ドキュメントを変換して生成された HTML ファイルを示しています。
PDF から XML への変換
以下のコード スニペットに示すように、ライブラリが提供する同じ extract_text_to_fp 関数 (ただし出力タイプは xml に設定) を使用して PDF ドキュメントを XML 形式に変換することもできます。
出力
次のスクリーンショットは、PDF ドキュメントから変換された XML コンテンツを示しています。
結論
一般に、pdfminer.six は PDF ドキュメントを XML 形式に変換することを問題なくサポートしますが、PDF を HTML に変換しようとすると、テキスト コンテンツは転送できますが、全体のレイアウトが乱れることがよくあります。