开源 Python PDF 解析器库
免费开源 Python 库,用于解析 PDF 并提取带有格式信息的文本。
什么是 pdfminer.six?
pdfminer.six 是一个开源 Python 库和工具集,用于从 PDF 文档中提取数据。您可以解析 PDF 文档并从 PDF 中提取文本、目录和标记内容等以进行数据分析。
以下是其解析功能的简要列表:
- 文本提取:从 PDF 文档中提取文本内容,包括布局和格式信息,如文本颜色、字体和位置等。
- 字体信息提取:提取有关 PDF 文档中使用的字体的信息。
pdfminer.six 入门
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip 和虚拟环境。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
苹果系统
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
从 PDF 文档中提取文本
您可以使用 Python 中的 pdfminer.six 库通过 extract_text 函数从 PDF 文档中提取文本,如下面的代码片段所示:
输出
以下屏幕截图显示了从 PDF 文档中提取的文本:
从 PDF 文档中提取字体信息
我们还可以通过迭代 PDF 中每个页面的布局元素来提取有关 PDF 文档中使用的字体的信息,例如字体名称和字体大小。例如,检查下面的代码片段:
输出
下面的截图显示了从PDF文档中提取的字体信息:
结论
总之,pdfminer.six能够从PDF文档中提取文本和其他信息,但缺乏从PDF中提取图像和表格等功能。
需要注意的是,pdfminer.six 库支持将 PDF 页面提取为图像,但这与提取 PDF 文档中嵌入的图像不同,pdfminer.six 不支持提取嵌入在 PDF 文档中的图像。然而,开发人员仍然可以依靠它在 Python 中解析 PDF 来提取文本以满足数据分析需求。