开源 Python PDF 元数据库
免费开源 Python 库,用于读取和更新 PDF 文档的元数据。
什么是 pypdf?
Pypdf 是一个多功能的开源 Python 库,以其多样化的 PDF 操作功能而闻名。该库对于各种 PDF 操作确实派上用场,例如 PDF 解析 和 PDF 拆分和合并 等,但在本次产品评测中,我们将仅关注其 PDF 元数据管理功能。
以下是pypdf与元数据相关的主要功能:
- 读取PDF元数据:您可以使用pypdf读取PDF文档的属性(例如作者、创建者、制作者、标题、主题和关键字)。
- 更新 PDF 元数据:您还可以使用 pypdf 更新 PDF 文档的元数据。
开始使用 pypdf
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip 和虚拟环境。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
苹果系统
python -m venv venv
source venv/bin/activate
pip install pypdf
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
读取PDF的元数据
我们可以使用 pypdf 库读取 PDF 文档的元数据。我们将从 pypdf 库中的 PdfReader 类的 metadata 属性获取 PDF 的元数据。检查下面的代码片段了解详细信息:
输出
下面的屏幕截图显示了所提供的 PDF 文件的元数据:
更新 PDF 元数据
我们还可以使用 pypdf 库更新 PDF 文档的元数据,例如作者、制作人、主题和标题等。我们将一个包含元数据信息的对象传递给pypdf库中PdfWriter类的add_metadata方法来更新/写入PDF文档的元数据。有关详细信息,请检查以下代码片段:
结论
总之,pypdf 被证明是一个出色的 Python 库,用于读取和更新 PDF 文档的元数据。开发人员可以轻松读取和更新 PDF 文档的元数据,没有任何问题。