1. 製品
  2.   パーサー
  3.   Python
  4.   pdfminer.six
 
  

オープンソースの Python PDF パーサー ライブラリ

PDF を解析し、書式情報を含むテキストを抽出するための無料のオープンソース Python ライブラリ。

pdfminer.sixとは何ですか?

Pdfminer.six は、PDF ドキュメントからデータを抽出するためのオープンソースの Python ライブラリおよびツールセットです。PDF ドキュメントを解析し、PDF からテキスト、目次、タグ付きコンテンツなどを抽出してデータ分析を行うことができます。

解析機能の簡単なリストを以下に示します。

  • テキスト抽出: テキストの色、フォント、位置などのレイアウトや書式設定情報を含むテキスト コンテンツを PDF ドキュメントから抽出します。
  • フォント情報の抽出: PDF ドキュメントで使用されているフォントに関する情報を抽出します。
GitHub

GitHub の統計

名前:
言語:
出演者:
フォーク:
ライセンス:
リポジトリの最終更新日時

pdfminer.six を使い始める

pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip仮想環境 を使用してマシンに pypdf をインストールします。

リナックス


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ウィンドウズ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF文書からテキストを抽出する

以下のコード スニペットに示すように、Python の pdfminer.six ライブラリを使用して extract_text 関数を使用することで、PDF ドキュメントからテキストを抽出できます。

出力

次のスクリーンショットは、PDF ドキュメントから抽出されたテキストを示しています。

PDF ドキュメントからフォント情報を抽出する

PDF 内の各ページのレイアウト要素を反復処理することで、フォント名やフォント サイズなど、PDF ドキュメントで使用されているフォントに関する情報も抽出できます。たとえば、以下のコード スニペットを確認してください。

出力

次のスクリーンショットは、PDF ドキュメントから抽出されたフォント情報を示しています。

結論

結論として、pdfminer.six には PDF 文書からテキストやその他の情報を抽出する機能がありますが、PDF から画像や表を抽出する機能はありません。

pdfminer.six ライブラリは PDF ページを画像として抽出することをサポートしていますが、これは PDF ドキュメントに埋め込まれた画像を抽出することとは異なります。これは pdfminer.six ではサポートされていません。ただし、開発者は引き続きこのライブラリを利用して、データ分析のニーズに合わせてテキストを抽出するために Python で PDF を解析できます。

類似製品

 日本語