オープンソースの Python PDF パーサーライブラリ

無料の Python ライブラリを使用して PDF を解析し、PDF ドキュメントからテキスト、画像、添付ファイルを抽出します。

pypdfとは何ですか?

Pypdf は、さまざまな PDF 操作に優れていることで知られる、貴重なオープンソース Python ライブラリです。このライブラリは、PDF ファイルに関連する多くのタスクと操作を処理できますが、このページでは PDF 解析機能にのみ焦点を当てます。

pypdf の注目すべき解析機能は次のとおりです。

PDF ファイルの読み取り: Pypdf を使用すると、PDF ファイルを開いて読み取り/解析できるため、既存の PDF ドキュメントからテキストやその他のデータを簡単に抽出できます。
コンテンツ抽出: 必要に応じて、PDF ドキュメントからテキスト、画像、添付ファイルを解析して抽出できます。

GitHub の統計

名前：
言語：
出演者：
フォーク:
ライセンス：
リポジトリの最終更新日時

pypdf を使い始める

pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip と仮想環境を使用してマシンに pypdf をインストールします。

リナックス


python3 -m venv venv
source venv/bin/activate
pip install pypdf

MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

ウィンドウズ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

PDFからテキストを抽出する

Please check below code snippet for example:

出力

下の画像はPDFファイルから抽出したテキストを示しています

PDFから画像を抽出する

pypdf ライブラリを使用して、PDF ドキュメントから画像を抽出できます。画像を抽出するには、pillow という追加のライブラリが必要です。各ページを反復処理して画像を識別し、元の名前を保持したまま個別の画像ファイルとして保存します。例として、以下のコードスニペットを確認してください。

出力

上記のコードを使用して挿入されたテキストは、以下の赤いボックスで強調表示されます。

PDFから添付ファイルを抽出する

pypdf ライブラリを使用すると、PDF ドキュメントから添付ファイルを抽出して保存できます。添付ファイルとその内容を反復処理し、別々のファイルに保存します。例として、以下のコードスニペットを確認してください。

結論

結論として、pypdf は PDF ドキュメントから特徴を抽出するための多用途の Python ライブラリとして際立っています。テキスト、画像、添付ファイルを解析するための強力な機能を備えているため、データの抽出、分析、ドキュメント管理に役立つツールです。

ただし、pypdf では、テキストの抽出時に、単語と文字の間に余分なスペースが入るなど、抽出されたコンテンツの精度に影響する問題が時々発生する可能性があることに注意することが重要です。この制限にもかかわらず、pypdf は、特にテキストの正確な書式設定が主な懸念事項ではないシナリオでは、PDF ファイルを解析するための貴重な資産です。

オープンソースの Python PDF パーサー ライブラリ