PDF ドキュメント用のオープンソース Python メタデータ ライブラリ

PDF ファイルのメタデータを読み取り、編集、更新するための無料のオープンソース Python ライブラリ。

PikePDF for Python とは何ですか?

PikePDF は、シームレスな PDF 操作向けにカスタマイズされた最新の Python ライブラリで、メタデータの操作に特化した強力な機能を備えています。堅牢な QPDF ライブラリをベースに構築された PikePDF を使用すると、開発者は PDF ファイルにメタデータを簡単に追加、編集、削除できるため、ドキュメント情報を整理して充実させるための重要なツールとなります。タイトル、著者、件名フィールド、カスタム メタデータ エントリを更新する必要がある場合でも、PikePDF はこれらの詳細をプログラムで管理するための Python の直感的な API を提供します。また、埋め込みメタデータの処理をサポートしているため、ドキュメントの分類と検索性が強化され、詳細なドキュメントの説明に大きく依存するワークフローに準拠できます。信頼性とパフォーマンスに重点を置いた PikePDF は、ドキュメント処理システムでのメタデータ管理タスクの自動化や、メタデータ駆動型 PDF ワークフローの強化に最適です。

PikePDF APIの機能

PikePDF API for Python has rich set of features for working with the metadata of the PDF documents. Some of its features are as listed below.
  • PDF 操作: PDF ファイル内のページを結合、分割、回転、並べ替えます。
  • メタデータ処理: メタデータを追加、編集、または削除して、PDF の構成と情報を強化します。
  • 暗号化とセキュリティ: パスワードを使用して PDF を暗号化し、保護された PDF のロックを解除し、セキュリティ設定を管理します。
  • 破損したファイルの修復: 破損または壊れた PDF ドキュメントの問題を検出して修正します。
  • PDF/A 変換: 長期アーカイブとコンプライアンスのために PDF を PDF/A 形式に変換します。
  • 埋め込みフォントのサポート: テキストの一貫性と互換性を保つために埋め込みフォントを処理します。
  • パフォーマンス重視: 大規模または複雑な PDF での高速かつ信頼性の高い操作に最適化されています。
  • QPDF ベース: 強力な QPDF ライブラリを活用して、高度な PDF 操作機能を実現します。
  • オープンソース: 無料で使用でき、開発者コミュニティによって積極的にメンテナンスされています。

PikePDF APIを使用する利点

  • メタデータ管理: メタデータを簡単に追加、編集、削除して、PDF の整理と検索性を強化します。
  • PDF/A サポート: メタデータを保持または更新しながら、PDF をアーカイブ形式に変換します。
  • 破損処理: メタデータを失うことなく、破損した PDF ファイルを修復および復元します。
  • 暗号化とセキュリティ: メタデータの整合性を維持しながら、パスワード保護と暗号化を管理します。
  • カスタム メタデータ: カスタム フィールドを追加して、特定のワークフローやビジネス要件に合わせて PDF メタデータをカスタマイズします。
  • 高パフォーマンス: 大規模で複雑な PDF ファイルを高速かつ効率的に処理できるように最適化されています。
  • オープン ソース: 無料で積極的にメンテナンスされており、信頼性が高くコスト効率の高いソリューションを提供します。
  • QPDF ベース: 高度な PDF およびメタデータ操作のために QPDF の強力な機能を活用します。

Python 用 PikePDF API を使い始める

GitHub

GitHub の統計

名前:
言語:
出演者:
フォーク:
ライセンス:
リポジトリの最終更新日時

Python アプリケーションで PikePDF を使用するには、システムに Python 3.9 以降のバージョンをインストールする必要があります。まず Python をインストールし、次に以下のコマンドを使用して、pip仮想環境 を使用してマシンに Hachoir API をインストールします。


pip install pikepdf

Python 用 PikePDF API の使用 - 例

PikePDF を使用すると、PDF ファイルのメタデータ情報の読み取り、書き込み、更新を行うことができます。API は、Python アプリケーション内から PDF ファイルを操作するための使いやすいメソッドとサンプルを提供します。

Python 用 PikePDF API を使用してファイルのメタデータ情報を読み取る

PikePDF ファイルを使用して PDF ファイルからメタデータ情報を読み取るのは簡単です。次のサンプル コードを使用して、任意の PDF ドキュメントからメタデータ情報を読み取ることができます。

出力

このコードを実行すると、出力は次のようになります。


PDF Metadata:
/Title: Sample PDF Document
/Author: John Doe
/Subject: Example Usage
/Producer: Adobe PDF Library
/CreationDate: D:20241226093000Z

ファイルにメタデータ情報がない場合、出力は空になります。

Python 用の PikePDF API を使用して PDF ファイルにメタデータ情報を書き込む

PikePDF は、PDF ファイルのメタデータを書き込んだり更新したりできます。ライブラリを使用すると、既存のメタデータ フィールドを変更したり、新しいフィールドを追加したりできます。以下は、PDF ファイル内のメタデータを更新する方法を示す例です。

更新できる一般的な標準フィールドは次のとおりです。


Title: The title of the document.
Author: The author of the document.
Subject: The subject or topic of the document.
Keywords: Keywords associated with the document for search purposes.
Creator: The application that created the document.
Producer: The software that generated the PDF.
CreationDate: The date the document was created.
ModDate: The date the document was last modified.

PikePDF APIの結論

PikePDF is a powerful and user-friendly Python library that simplifies the handling of PDF files, especially for metadata management. Built on the robust QPDF library, it offers seamless capabilities to read, write, and update metadata fields, enabling developers to organize, enrich, and customize PDF documents effectively. In addition to metadata operations, PikePDF excels at tasks like repairing corrupt PDFs, managing encryption, and converting files to PDF/A format, making it a versatile tool for a wide range of PDF-related workflows. Its open-source nature, active maintenance, and Pythonic API make it an excellent choice for developers looking for a reliable and efficient solution for PDF processing and metadata management. Whether you’re automating document workflows, ensuring compliance with archival standards, or enhancing PDF metadata for searchability, PikePDF provides the tools you need to work with PDFs effortlessly.

類似製品

 日本語