开源 Python PDF 元数据库

免费开源 Python 库,用于读取和更新 PDF 文档的元数据。

什么是 pypdf?

Pypdf 是一个多功能的开源 Python 库,以其多样化的 PDF 操作功能而闻名。该库对于各种 PDF 操作确实派上用场,例如 PDF 解析PDF 拆分和合并 等,但在本次产品评测中,我们将仅关注其 PDF 元数据管理功能。

以下是pypdf与元数据相关的主要功能:

  • 读取PDF元数据:您可以使用pypdf读取PDF文档的属性(例如作者、创建者、制作者、标题、主题和关键字)。
  • 更新 PDF 元数据:您还可以使用 pypdf 更新 PDF 文档的元数据。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

开始使用 pypdf

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip虚拟环境

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

苹果系统


python -m venv venv
source venv/bin/activate
pip install pypdf

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

读取PDF的元数据

我们可以使用 pypdf 库读取 PDF 文档的元数据。我们将从 pypdf 库中的 PdfReader 类的 metadata 属性获取 PDF 的元数据。检查下面的代码片段了解详细信息:

输出

下面的屏幕截图显示了所提供的 PDF 文件的元数据:

更新 PDF 元数据

我们还可以使用 pypdf 库更新 PDF 文档的元数据,例如作者、制作人、主题和标题等。我们将一个包含元数据信息的对象传递给pypdf库中PdfWriter类的add_metadata方法来更新/写入PDF文档的元数据。有关详细信息,请检查以下代码片段:

结论

总之,pypdf 被证明是一个出色的 Python 库,用于读取和更新 PDF 文档的元数据。开发人员可以轻松读取和更新 PDF 文档的元数据,没有任何问题。

类似产品

 中国人