オープンソースの Python PDF パーサー ライブラリ
無料の Python ライブラリを使用して PDF を解析し、PDF ドキュメントからテキスト、画像、添付ファイルを抽出します。
pypdfとは何ですか?
Pypdf は、さまざまな PDF 操作に優れていることで知られる貴重なオープン ソース Python ライブラリです。このライブラリは PDF ファイルに関連する多くのタスクや操作を処理できますが、このページでは PDF 解析機能のみに焦点を当てます。
pypdf の注目すべき解析機能は次のとおりです。
- PDF ファイルの読み取り: Pypdf を使用すると、PDF ファイルを開いて読み取り/解析できるため、既存の PDF ドキュメントからテキストやその他のデータを簡単に抽出できます。
- コンテンツの抽出: 要件に応じて、PDF ドキュメントからテキスト、画像、添付ファイルを解析して抽出できます。
pypdf の入門
pypdf をインストールして使用するには、Python バージョン 3.6.0 以降が必要です。したがって、まず Python をインストールし、次に以下のコマンドを使用して、pip と 仮想環境あ>。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
マックOS
python -m venv venv
source venv/bin/activate
pip install pypdf
ウィンドウズ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
PDF からテキストを抽出
Please check below code snippet for example:出力
下の画像は、PDF ファイルから抽出されたテキストを示しています
PDF から画像を抽出
pypdf ライブラリを使用して PDF ドキュメントから画像を抽出できます。画像を抽出するには枕という名前の追加ライブラリが必要です。各ページを反復処理して画像を識別し、元の名前を維持したまま個別の画像ファイルとして保存します。たとえば、以下のコード スニペットを確認してください。
出力
上記のコードを使用して挿入されたテキストは、以下の赤いボックスで強調表示されます。
PDF から添付ファイルを抽出する
pypdf ライブラリを使用すると、PDF ドキュメントから添付ファイルを抽出して保存できます。添付ファイルとその内容を反復処理し、それらを別のファイルに保存します。たとえば、以下のコード スニペットを確認してください。
結論
結論として、pypdf は PDF ドキュメントから特徴を抽出するための多用途の Python ライブラリとして際立っています。テキスト、画像、添付ファイルを解析するための強力な機能を提供し、データ抽出、分析、ドキュメント管理のための貴重なツールとなります。
ただし、pypdf ではテキストを抽出するときに、単語や文字の間に余分なスペースが含まれるなど、抽出されたコンテンツの精度に影響を与える可能性がある問題が発生する場合があることに注意することが重要です。この制限にもかかわらず、pypdf は、特にテキストの正確な書式設定が主な関心事ではないシナリオでは、PDF ファイルを解析するための貴重な資産であり続けます。