オープンソースの Python PDF パーサー ライブラリ
PDF を解析し、書式設定情報を含むテキストを抽出するための無料のオープンソース Python ライブラリ。
pdfminer.6 とは何ですか?
Pdfminer.six は、PDF ドキュメントからデータを抽出するためのオープンソース Python ライブラリおよびツールセットです。 PDF ドキュメントを解析し、データ分析のために PDF からテキスト、目次、タグ付けされたコンテンツなどを抽出できます。
以下にその解析機能の簡単なリストを示します。
- テキスト抽出:テキストの色、フォント、位置などのレイアウトや書式情報を含むテキスト コンテンツを PDF ドキュメントから抽出します。
- フォント情報の抽出: PDF ドキュメントで使用されているフォントに関する情報を抽出します。
pdfminer.six の使用を開始する
pypdf をインストールして使用するには、Python バージョン 3.6.0 以降が必要です。したがって、まず Python をインストールし、次に以下のコマンドを使用して、pip と 仮想環境あ>。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
マックOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ウィンドウズ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF ドキュメントからテキストを抽出
以下のコード スニペットに示すように、Python の pdfminer.six ライブラリを使用して、extract_text 関数を使用して PDF ドキュメントからテキストを抽出できます。
出力
次のスクリーンショットは、PDF ドキュメントから抽出されたテキストを示しています。
PDF ドキュメントからフォント情報を抽出する
PDF 内の各ページのレイアウト要素を反復処理することで、フォント名やフォント サイズなど、PDF ドキュメントで使用されているフォントに関する情報を抽出することもできます。たとえば、以下のコード スニペットを確認してください。
出力
次のスクリーンショットは、PDF ドキュメントから抽出されたフォント情報を示しています。
結論
結論として、pdfminer.six には PDF ドキュメントからテキストやその他の情報を抽出する機能がありますが、PDF から画像や表を抽出するなどの機能はありません。
pdfminer.six ライブラリは PDF ページを画像として抽出することをサポートしていますが、pdfminer.six でサポートされていない PDF ドキュメントに埋め込まれた画像の抽出とは異なることに注意することが重要です。ただし、開発者は Python で PDF を解析し、データ分析のニーズに合わせてテキストを抽出する際にこれを利用できます。