开源 Python PDF 合并库
试试这个用户友好的开源 Python 库,它可以让您轻松地拆分、合并、旋转、交换和删除页面,使其成为满足您的 PDF 文档需求的多功能工具。
什么是 PyMuPDF?
PyMuPDF,也称为 Fitz,是一个开源 Python 库,提供一套用于处理 PDF 文件的全面工具。使用 PyMuPDF,用户可以高效地执行各种任务,例如打开 PDF、提取文本和图像、操作页面属性(如旋转和裁剪)、创建新的 PDF 文档以及将 PDF 页面转换为图像。
PyMuPDF 支持多种功能。然而,在本次评测中,我们主要关注该库的 PDF 拆分、合并和页面管理功能。如需深入评估提取和解析功能,请点击此处。
PyMuPDF 入门
您需要 Python 版本 3.8.0 或更高版本才能安装和使用 PyMuPDF。因此,首先安装 Python,然后使用以下命令通过 pip 和 虚拟环境 在您的机器上安装 PyMuPDF。
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
苹果系统
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
视窗
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
将多个 PDF 合并为一个
使用 PyMuPDF 库,我们可以在 Python 中将多个 PDF 合并为一个 PDF 文件。以下代码片段通过将两个 PDF 文档一个接一个地附加在一起并将其保存为新文档:
将 PDF 拆分为多个文件
还可以使用 PyMuPDF 库在 Python 中将 PDF 文档拆分为多个 PDF。以下代码片段拆分文档的前两页并将它们存储为单独的 PDF:
旋转 PDF 页面
我们还可以使用 PyMuPDF 库旋转 PDF 文件的页面。我们将使用 set_rotation 函数旋转以下代码片段中的页面:
输出
我们可以看到,文档旋转了90度。
删除 PDF 页面
PyMuPDF 还可用于删除 PDF 文件的页面。我们将使用 delete_page 函数删除页面。以下是作为输入的文档,代码将删除其第二页:
输出
下图显示了修改后的 PDF 文件,其中第二页已被删除。
结论
PyMuPDF 在 PDF 文档的合并和页面操作方面具有显著优势。它在旋转、裁剪、调整大小和删除页面方面的灵活性和效率使其成为 PDF 修改任务的强大选择。此外,PyMuPDF 无缝合并多个 PDF 文档的能力也是一个显著的优势。
然而,其相对复杂的 API 可能会给新手带来学习难度,并且在处理非常大或复杂的 PDF 时可能会有一些限制,这可能会影响性能。尽管如此,它在这些领域的广泛功能使其成为那些寻求精确控制 PDF 内容的人的宝贵工具。