PDF から HTML/XML への変換 Python ライブラリ
PDF ドキュメントを HTML および XML に変換するための無料のオープンソース Python ライブラリ。
pdfminer.sixとは何ですか?
pdfminer.six は、PDF ドキュメントを他の形式に変換するために使用できる無料のオープンソース Python ライブラリです。
主な PDF 変換機能の簡単なリストを以下に示します。
- PDF から HTML への変換: ドキュメントの構造とレイアウトを維持しながら、PDF ドキュメントを HTML 形式に変換します。
- PDF から XML への変換: フォントやその他の要素を含むすべての詳細をキャプチャしながら、PDF ファイルを XML 形式に変換します。
pdfminer.six を使い始める
pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip と 仮想環境 を使用してマシンに pypdf をインストールします。
リナックス
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ウィンドウズ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDFをHTMLに変換する
以下のコード スニペットに示すように、ライブラリによって提供される pdfminer.six ライブラリの extract_text_to_fp 関数 (出力タイプを html に設定) を使用して、PDF ドキュメントを HTML 形式に変換できます。
出力
次のスクリーンショットは、PDF ドキュメントを変換して生成された HTML ファイルを示しています。
PDF から XML への変換
以下のコード スニペットに示すように、ライブラリによって提供される同じ extract_text_to_fp 関数 (ただし、出力タイプは xml に設定) を使用して、PDF ドキュメントを XML 形式に変換することもできます。
出力
次のスクリーンショットは、PDF ドキュメントから変換された XML コンテンツを示しています。
結論
通常、pdfminer.six は PDF ドキュメントを XML 形式に変換することを問題なくサポートしますが、PDF を HTML に変換しようとすると、テキスト コンテンツは転送できますが、全体的なレイアウトが乱れることがよくあります。