1. 产品
  2.   解析器
  3.   Python
  4.   pdfminer.six
 
  

开源 Python PDF 解析器库

免费开源 Python 库,用于解析 PDF 并提取带有格式信息的文本。

什么是 pdfminer.six?

pdfminer.six 是一个开源 Python 库和工具集,用于从 PDF 文档中提取数据。您可以解析 PDF 文档并从 PDF 中提取文本、目录和标记内容等以进行数据分析。

以下是其解析功能的简要列表:

  • 文本提取:从 PDF 文档中提取文本内容,包括布局和格式信息,如文本颜色、字体和位置等。
  • 字体信息提取:提取有关 PDF 文档中使用的字体的信息。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

pdfminer.six 入门

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip虚拟环境

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

苹果系统


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

从 PDF 文档中提取文本

您可以使用 Python 中的 pdfminer.six 库通过 extract_text 函数从 PDF 文档中提取文本,如下面的代码片段所示:

输出

以下屏幕截图显示了从 PDF 文档中提取的文本:

从 PDF 文档中提取字体信息

我们还可以通过迭代 PDF 中每个页面的布局元素来提取有关 PDF 文档中使用的字体的信息,例如字体名称和字体大小。例如,检查下面的代码片段:

输出

下面的截图显示了从PDF文档中提取的字体信息:

结论

总之,pdfminer.six能够从PDF文档中提取文本和其他信息,但缺乏从PDF中提取图像和表格等功能。

需要注意的是,pdfminer.six 库支持将 PDF 页面提取为图像,但这与提取 PDF 文档中嵌入的图像不同,pdfminer.six 不支持提取嵌入在 PDF 文档中的图像。然而,开发人员仍然可以依靠它在 Python 中解析 PDF 来提取文本以满足数据分析需求。

类似产品

 中国人