开源 Python PDF 元数据库
免费开源 Python 库,用于读取和更新 PDF 文档的元数据。
问:pypdf 是什么?
Pypdf 是一个多功能开源 Python 库,以其丰富的 PDF 操作功能而闻名。该库确实可用于各种 PDF 操作,如 PDF 解析 和 PDF 拆分和合并 等。但在本次产品评测中,我们将仅关注其 PDF 元数据管理功能。
以下是pypdf与元数据相关的主要特性:
- 读取 PDF 元数据:您可以使用 pypdf 读取 PDF 文档的属性(例如作者、创建者、制作人、标题、主题和关键字)。
- 更新 PDF 元数据:您还可以使用 pypdf 更新 PDF 文档的元数据。
pypdf 入门
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令通过 pip 和 虚拟环境 在您的机器上安装 pypdf。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
苹果系统
python -m venv venv
source venv/bin/activate
pip install pypdf
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
读取 PDF 的元数据
我们可以使用 pypdf 库读取 PDF 文档的元数据。我们将从 pypdf 库中 PdfReader 类的 metadata 属性中获取 PDF 的元数据。查看以下代码片段了解详情:
输出
下面的屏幕截图显示了所提供的 PDF 文件的元数据:
更新 PDF 元数据
我们还可以使用 pypdf 库更新 PDF 文档的元数据,例如作者、制作人、主题和标题等。我们将包含元数据信息的对象传递给 pypdf 库中 PdfWriter 类的 add_metadata 方法,以更新/写入 PDF 文档的元数据。有关详细信息,请查看以下代码片段:
结论
总之,pypdf 被证明是一个用于读取和更新 PDF 文档元数据的出色 Python 库。开发人员可以轻松读取和更新 PDF 文档的元数据,而不会出现任何问题。