オープンソースの Python PDF パーサー ライブラリ
無料の Python ライブラリを使用して PDF を解析し、PDF ドキュメントからテキスト、画像、添付ファイルを抽出します。
pypdfとは何ですか?
Pypdf は、さまざまな PDF 操作に優れていることで知られる、貴重なオープン ソース Python ライブラリです。このライブラリは、PDF ファイルに関連する多くのタスクと操作を処理できますが、このページでは PDF 解析機能にのみ焦点を当てます。
pypdf の注目すべき解析機能は次のとおりです。
- PDF ファイルの読み取り: Pypdf を使用すると、PDF ファイルを開いて読み取り/解析できるため、既存の PDF ドキュメントからテキストやその他のデータを簡単に抽出できます。
- コンテンツ抽出: 必要に応じて、PDF ドキュメントからテキスト、画像、添付ファイルを解析して抽出できます。
pypdf を使い始める
pypdf をインストールして使用するには、Python バージョン 3.6.0 以上が必要です。まず Python をインストールし、次に以下のコマンドを使用して pip と 仮想環境 を使用してマシンに pypdf をインストールします。
リナックス
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
ウィンドウズ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
PDFからテキストを抽出する
Please check below code snippet for example:出力
下の画像はPDFファイルから抽出したテキストを示しています
PDFから画像を抽出する
pypdf ライブラリを使用して、PDF ドキュメントから画像を抽出できます。画像を抽出するには、pillow という追加のライブラリが必要です。各ページを反復処理して画像を識別し、元の名前を保持したまま個別の画像ファイルとして保存します。例として、以下のコード スニペットを確認してください。
出力
上記のコードを使用して挿入されたテキストは、以下の赤いボックスで強調表示されます。
PDFから添付ファイルを抽出する
pypdf ライブラリを使用すると、PDF ドキュメントから添付ファイルを抽出して保存できます。添付ファイルとその内容を反復処理し、別々のファイルに保存します。例として、以下のコード スニペットを確認してください。
結論
結論として、pypdf は PDF ドキュメントから特徴を抽出するための多用途の Python ライブラリとして際立っています。テキスト、画像、添付ファイルを解析するための強力な機能を備えているため、データの抽出、分析、ドキュメント管理に役立つツールです。
ただし、pypdf では、テキストの抽出時に、単語と文字の間に余分なスペースが入るなど、抽出されたコンテンツの精度に影響する問題が時々発生する可能性があることに注意することが重要です。この制限にもかかわらず、pypdf は、特にテキストの正確な書式設定が主な懸念事項ではないシナリオでは、PDF ファイルを解析するための貴重な資産です。