PDF から HTML/XML への変換 Python ライブラリ

PDF ドキュメントを HTML および XML に変換するための無料のオープンソース Python ライブラリ。

pdfminer.six は、PDF ドキュメントを他の形式に変換するために使用できる無料のオープンソース Python ライブラリです。

主な PDF 変換機能の簡単なリストを以下に示します。

名前：
言語：
出演者：
フォーク:
ライセンス：
リポジトリの最終更新日時

pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip と仮想環境を使用してマシンに pypdf をインストールします。


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six


python -m venv venv
source venv/bin/activate
pip install pdfminer.six


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

以下のコードスニペットに示すように、ライブラリによって提供される pdfminer.six ライブラリの extract_text_to_fp 関数 (出力タイプを html に設定) を使用して、PDF ドキュメントを HTML 形式に変換できます。

次のスクリーンショットは、PDF ドキュメントを変換して生成された HTML ファイルを示しています。

以下のコードスニペットに示すように、ライブラリによって提供される同じ extract_text_to_fp 関数 (ただし、出力タイプは xml に設定) を使用して、PDF ドキュメントを XML 形式に変換することもできます。

次のスクリーンショットは、PDF ドキュメントから変換された XML コンテンツを示しています。

通常、pdfminer.six は PDF ドキュメントを XML 形式に変換することを問題なくサポートしますが、PDF を HTML に変換しようとすると、テキストコンテンツは転送できますが、全体的なレイアウトが乱れることがよくあります。