PDF 文档的开源 Python 元数据库
免费开源 Python 库,用于读取、编辑和更新 PDF 文件的元数据。
什么是 Python 版 PikePDF?
PikePDF 是一个现代 Python 库,专为无缝 PDF 操作而定制,具有强大的元数据处理功能。PikePDF 建立在强大的 QPDF 库之上,允许开发人员轻松地在 PDF 文件中添加、编辑和删除元数据,使其成为组织和丰富文档信息的重要工具。无论您需要更新标题、作者、主题字段还是自定义元数据条目,PikePDF 都提供了一个 Pythonic 和直观的 API,用于以编程方式管理这些详细信息。它还支持处理嵌入式元数据,以增强文档分类和可搜索性,确保符合严重依赖详细文档描述的工作流程。PikePDF 专注于可靠性和性能,是自动化文档处理系统中的元数据管理任务或增强元数据驱动的 PDF 工作流程的理想选择。
PikePDF API 的功能
PikePDF API for Python has rich set of features for working with the metadata of the PDF documents. Some of its features are as listed below.- PDF 操作:合并、拆分、旋转和重新排序 PDF 文件中的页面。
- 元数据处理:添加、编辑或删除元数据以增强 PDF 组织和信息。
- 加密和安全:使用密码加密 PDF、解锁安全 PDF 以及管理安全设置。
- 修复损坏的文件:检测并修复损坏或损坏的 PDF 文档中的问题。
- PDF/A 转换:将 PDF 转换为 PDF/A 格式,以便长期存档和合规。
- 嵌入式字体支持:处理嵌入式字体以确保文本的一致性和兼容性。
- 以性能为导向:针对大型或复杂 PDF 的快速可靠操作进行了优化。
- 基于 QPDF:利用强大的 QPDF 库实现高级 PDF 操作功能。
- 开源:免费使用并由开发者社区积极维护。
使用 PikePDF API 的优势
- 元数据管理:轻松添加、编辑或删除元数据以增强 PDF 组织和可搜索性。
- PDF/A 支持:将 PDF 转换为档案格式,同时保留或更新元数据。
- 损坏处理:修复和恢复损坏的 PDF 文件而不会丢失元数据。
- 加密和安全:管理密码保护和加密,同时保持元数据的完整性。
- 自定义元数据:添加自定义字段以根据特定工作流程或业务需求定制 PDF 元数据。
- 高性能:经过优化,可快速高效地处理大型复杂的 PDF 文件。
- 开源:免费且积极维护,提供可靠且经济高效的解决方案。
- 基于 QPDF:利用 QPDF 的强大功能进行高级 PDF 和元数据操作。
Python 版 PikePDF API 入门
在您的 Python 应用程序中使用 PikePDF 需要您在系统上安装 Python 3.9+ 版本。因此,首先安装 Python,然后使用以下命令通过 pip 和 虚拟环境 在您的机器上安装 Hachoir API。
pip install pikepdf
使用 Python 的 PikePDF API - 示例
您可以使用 PikePDF 读取、写入和更新 PDF 文件的元数据信息。API 提供了易于使用的方法和示例,用于在 Python 应用程序中处理 PDF 文件。
使用 Python 的 PikePDF API 读取文件的元数据信息
使用 PikePDF 文件从 PDF 文件中读取元数据信息非常简单。您可以使用以下示例代码从任何 PDF 文档中读取元数据信息。
输出
执行此代码时,输出将类似于以下内容:
PDF Metadata:
/Title: Sample PDF Document
/Author: John Doe
/Subject: Example Usage
/Producer: Adobe PDF Library
/CreationDate: D:20241226093000Z
如果文件中没有元数据信息,则输出将为空。
使用 Python 的 PikePDF API 将元数据信息写入 PDF 文件
PikePDF 可以写入或更新 PDF 文件的元数据。该库允许您修改现有的元数据字段或添加新的字段。以下是演示如何更新 PDF 文件中的元数据的示例:
以下是一些您可以更新的常见标准字段:
Title: The title of the document.
Author: The author of the document.
Subject: The subject or topic of the document.
Keywords: Keywords associated with the document for search purposes.
Creator: The application that created the document.
Producer: The software that generated the PDF.
CreationDate: The date the document was created.
ModDate: The date the document was last modified.