开源 Python PDF 注释库
尝试使用这个免费开源 Python 库在 PDF 文档中添加和提取注释。
什么是 pypdf?
Pypdf 是一个免费的开源 Python 库,以其在 Python 环境中处理 PDF 文档的多种功能而闻名。该工具确实可以方便地进行各种 PDF 操作,但我们将在本次评论中重点关注其注释相关功能。
pypdf 与注释相关的显着功能包括:
- 添加形状注释:我们可以在PDF页面的特定区域绘制直线、矩形、椭圆、多边形等形状作为注释。
- 添加文本注释:我们可以在PDF页面的特定位置添加文本注释。
- 添加链接注释:还可以向 PDF 文档添加链接注释(如超链接)。
- 提取注释:我们可以使用 pypdf 库迭代并提取 PDF 文档中所有注释的信息。
开始使用 pypdf
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip 和虚拟环境。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
苹果系统
python -m venv venv
source venv/bin/activate
pip install pypdf
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
向 PDF 添加矩形注释
我们可以使用 pypdf 库向 PDF 文档添加矩形注释。我们将使用pypdf库中pypdf.annotations模块的Rectangle类来定义矩形。然后我们将使用PDFWriter类的add_annotations方法向PDF添加矩形注释。
检查下面的代码片段了解详细信息:
输出
在下面的屏幕截图中,您可以看到添加了矩形来注释“开源”一词:
向 PDF 添加文本注释
我们使用 pypdf 库的 pypdf.annotations 模块中的 Text 类创建文本注释。之后,我们可以使用pypdf库中PDFWriter类的add_annotations方法向PDF添加注释。文本注释添加为图标,单击该图标时会展开并显示文本。检查下面的代码片段了解详细信息:
输出
正如我们在下面的截屏视频中看到的,上面的代码在 PDF 的指定位置添加了一个图标,单击图标时会显示文本注释:
添加链接注释到 PDF
链接注释是使用 pypdf.annotations 模块中的 Link 类创建的。然而,链接注释的问题是它只是添加了链接但不可见。为了解决这个问题,我们将使用 pypdf.annotations 模块中的 Rectangle 类合并一个矩形,正如我们之前解释的那样。这样,用户可以直观地识别添加链接注释的位置。检查下面的代码片段以更好地理解:
输出
正如我们在输出中看到的,矩形充当一个区域,当单击该区域时,会将用户重定向到指定的链接。
从 PDF 中提取注释
我们可以使用 pypdf 库从 PDF 中提取注释。我们遍历 PDF 页面上的所有注释,然后使用 get_object 方法获取注释对象。然后我们从对象中提取相关信息。检查下面的代码片段了解详细信息:
输出
正如我们在下面的屏幕截图中看到的,程序返回了 PDF 文档中的注释类型和注释的坐标:
结论
Pypdf 使 Python 开发人员能够向 PDF 添加不同类型的注释并访问有关注释的基本信息,例如注释的类型和位置,使其成为需要添加注释和提取注释数据的任务的实用选择。