オープンソースの Python PDF パーサーライブラリ

PDF を解析し、書式情報を含むテキストを抽出するための無料のオープンソース Python ライブラリ。

pdfminer.sixとは何ですか?

Pdfminer.six は、PDF ドキュメントからデータを抽出するためのオープンソースの Python ライブラリおよびツールセットです。PDF ドキュメントを解析し、PDF からテキスト、目次、タグ付きコンテンツなどを抽出してデータ分析を行うことができます。

解析機能の簡単なリストを以下に示します。

テキスト抽出: テキストの色、フォント、位置などのレイアウトや書式設定情報を含むテキストコンテンツを PDF ドキュメントから抽出します。
フォント情報の抽出: PDF ドキュメントで使用されているフォントに関する情報を抽出します。

GitHub の統計

名前：
言語：
出演者：
フォーク:
ライセンス：
リポジトリの最終更新日時

pdfminer.six を使い始める

pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip と仮想環境を使用してマシンに pypdf をインストールします。

リナックス


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ウィンドウズ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF文書からテキストを抽出する

以下のコードスニペットに示すように、Python の pdfminer.six ライブラリを使用して extract_text 関数を使用することで、PDF ドキュメントからテキストを抽出できます。

出力

次のスクリーンショットは、PDF ドキュメントから抽出されたテキストを示しています。

PDF ドキュメントからフォント情報を抽出する

PDF 内の各ページのレイアウト要素を反復処理することで、フォント名やフォントサイズなど、PDF ドキュメントで使用されているフォントに関する情報も抽出できます。たとえば、以下のコードスニペットを確認してください。

出力

次のスクリーンショットは、PDF ドキュメントから抽出されたフォント情報を示しています。

結論

結論として、pdfminer.six には PDF 文書からテキストやその他の情報を抽出する機能がありますが、PDF から画像や表を抽出する機能はありません。

pdfminer.six ライブラリは PDF ページを画像として抽出することをサポートしていますが、これは PDF ドキュメントに埋め込まれた画像を抽出することとは異なります。これは pdfminer.six ではサポートされていません。ただし、開発者は引き続きこのライブラリを利用して、データ分析のニーズに合わせてテキストを抽出するために Python で PDF を解析できます。

オープンソースの Python PDF パーサー ライブラリ