1. 製品
  2.   変換
  3.   Python
  4.   pdfminer.six
 
  

PDF から HTML/XML への変換 Python ライブラリ

PDF ドキュメントを HTML および XML に変換するための無料のオープンソース Python ライブラリ。

pdfminer.6 とは何ですか?

pdfminer.six は、PDF ドキュメントを他の形式に変換するために使用できる無料のオープンソース Python ライブラリです。

主な PDF 変換機能の簡単なリストを次に示します。

  • PDF から HTML への変換: ドキュメントの構造とレイアウトを維持しながら、PDF ドキュメントを HTML 形式に変換します。
  • PDF から XML への変換: PDF ファイルを XML 形式に変換し、フォントやその他の要素を含むすべての詳細をキャプチャします。
GitHub

GitHub の統計

名前:
言語:
出演者:
フォーク:
ライセンス:
リポジトリの最終更新日時

pdfminer.six の使用を開始する

pypdf をインストールして使用するには、Python バージョン 3.6.0 以降が必要です。したがって、まず Python をインストールし、次に以下のコマンドを使用して、pip仮想環境あ>。

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

マックOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ウィンドウズ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF を HTML に変換

以下のコード スニペットに示すように、ライブラリが提供する pdfminer.six ライブラリのextract_text_to_fp 関数 (出力タイプを html に設定) を使用して、PDF ドキュメントを HTML 形式に変換できます。

出力

次のスクリーンショットは、PDF ドキュメントを変換して生成された HTML ファイルを示しています。

PDF から XML への変換

以下のコード スニペットに示すように、ライブラリが提供する同じ extract_text_to_fp 関数 (ただし出力タイプは xml に設定) を使用して PDF ドキュメントを XML 形式に変換することもできます。

出力

次のスクリーンショットは、PDF ドキュメントから変換された XML コンテンツを示しています。

結論

一般に、pdfminer.six は PDF ドキュメントを XML 形式に変換することを問題なくサポートしますが、PDF を HTML に変換しようとすると、テキスト コンテンツは転送できますが、全体のレイアウトが乱れることがよくあります。

類似製品

 日本語