开源 Python PDF 元数据库

免费开源 Python 库,用于读取和更新 PDF 文档的元数据。

问:pypdf 是什么?

Pypdf 是一个多功能开源 Python 库,以其丰富的 PDF 操作功能而闻名。该库确实可用于各种 PDF 操作,如 PDF 解析PDF 拆分和合并 等。但在本次产品评测中,我们将仅关注其 PDF 元数据管理功能。

以下是pypdf与元数据相关的主要特性:

  • 读取 PDF 元数据:您可以使用 pypdf 读取 PDF 文档的属性(例如作者、创建者、制作人、标题、主题和关键字)。
  • 更新 PDF 元数据:您还可以使用 pypdf 更新 PDF 文档的元数据。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

pypdf 入门

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令通过 pip虚拟环境 在您的机器上安装 pypdf。

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

苹果系统


python -m venv venv
source venv/bin/activate
pip install pypdf

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

读取 PDF 的元数据

我们可以使用 pypdf 库读取 PDF 文档的元数据。我们将从 pypdf 库中 PdfReader 类的 metadata 属性中获取 PDF 的元数据。查看以下代码片段了解详情:

输出

下面的屏幕截图显示了所提供的 PDF 文件的元数据:

更新 PDF 元数据

我们还可以使用 pypdf 库更新 PDF 文档的元数据,例如作者、制作人、主题和标题等。我们将包含元数据信息的对象传递给 pypdf 库中 PdfWriter 类的 add_metadata 方法,以更新/写入 PDF 文档的元数据。有关详细信息,请查看以下代码片段:

结论

总之,pypdf 被证明是一个用于读取和更新 PDF 文档元数据的出色 Python 库。开发人员可以轻松读取和更新 PDF 文档的元数据,而不会出现任何问题。

类似产品

 中国人