1. 产品
  2.   元数据
  3.   Python
  4.   PyMuPDF

PyMuPDF

 
 

用于管理 PDF 元数据的开源 Python 库

尝试 PyMuPDF,免费和开源 Python 库来访问和修改 PDF 文档的元数据。

什么是 PyMuPDF?

PyMuPDF,也称为 Fitz,是一个开源 Python 库,提供许多功能,如解析 PDF拆分和合并 PDF等。但在本页中,我们将仅讨论 Python 开发人员如何使用 PyMuPDF 库处理 PDF 元数据相关任务,例如:

  • 读取 PDF 元数据:PyMuPDF 支持访问包含作者、标题、主题和创建日期等信息的 PDF 文档的元数据。
  • 修改 PDF 元数据:该库还允许修改 PDF 文档的元数据。
  • 读取 XML 元数据:PDF 文档还包含 XML 元数据,这些元数据不仅限于作者、标题等标准文档属性,还可以包含其他元数据。借助 PyMuPDF,开发人员还可以读取它。
  • 更改 XML 元数据:开发人员还可以使用 PyMuPDF 库更改 PDF 的 XML 元数据。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

PyMuPDF 入门

您需要 Python 版本 3.8.0 或更高版本才能安装和使用 PyMuPDF。因此,首先安装 Python,然后使用以下命令通过 pip虚拟环境 在您的机器上安装 PyMuPDF。

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

苹果系统


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

视窗


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

读取 PDF 元数据

我们可以使用 PyMuPDF 库的 metadata 成员读取 PDF 的元数据,该库包含文档的完整元数据内容。以下代码片段显示如何从 metadata 成员获取 PDF 的元数据:

输出

下面的屏幕截图显示了使用 PyMuPDF 从 PDF 中检索的元数据:

编辑 PDF 元数据

我们可以使用 PyMuPDF 库编辑 PDF 的元数据,通过将包含我们想要更改的字段及其新值的字典传递给 set_metadata 方法来编辑,如下面的代码片段所示:

读取 PDF 的 XML 元数据

我们可以使用 PyMuPDF 库检索 PDF 的 XML 元数据。我们使用 get_xml_metadata 方法,该方法返回整个 XML 元数据,如以下代码片段所示:

输出

下面的屏幕截图显示了使用 PyMuPDF 从 PDF 检索的 XML 元数据:

更改 PDF 的 XML 元数据

我们可以使用 PyMuPDF 库的 set_xml_metadata 方法设置或更改 PDF 的 XML 元数据。它不像替换文档级元数据那么简单,因为 set_xml_metadata 将接受任何字符串,并用传递给它的字符串替换完整的 XML 元数据。

为了避免无意中删除任何元数据信息,我们首先使用 get_xml_metadata 获取完整的 XML 元数据作为字符串,然后使用字符串的 replace 方法替换所需的信息,最后,我们将更改字段的完整 XML 传递给 set_xml_metadata 方法,该方法会更改 PDF 的整个 XML 元数据。查看以下代码片段了解详情:

结论

总之,PyMuPDF 是处理元数据相关任务的绝佳工具。我们可以轻松检索和更改 PDF 的元数据信息。但是,set_xml_metadata 方法存在一个明显的弱点。此方法接受传递给它的任何字符串并用它覆盖以前的 XML,这可能会导致意外的信息丢失,为了避免此问题,开发人员需要实现他们的逻辑以确保正确修改 XML 元数据。

类似产品

 中国人