1. 产品
  2.   解析器
  3.   Python
  4.   pdfminer.six
 
  

开源 Python PDF 解析器库

免费开源 Python 库用于解析 PDF 并提取带有格式信息的文本。

什么是 pdfminer.six?

Pdfminer.six 是一个开源 Python 库和工具集,用于从 PDF 文档中提取数据。您可以解析 PDF 文档并从 PDF 中提取文本、目录和标记内容等进行数据分析。

以下是其解析功能的简要列表:

  • 文本提取:从 PDF 文档中提取文本内容,包括布局和格式信息,如文本颜色、字体和位置等。
  • 字体信息提取:提取有关 PDF 文档中使用的字体的信息。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

开始使用 pdfminer.six

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令通过 pip虚拟环境 在您的机器上安装 pypdf。

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

苹果系统


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

从 PDF 文档中提取文本

您可以使用 Python 中的 pdfminer.six 库通过 extract_text 函数从 PDF 文档中提取文本,如下面的代码片段所示:

输出

以下截图显示了从 PDF 文档中提取的文本:

从 PDF 文档中提取字体信息

我们还可以通过遍历 PDF 中每页的布局元素来提取有关 PDF 文档中使用的字体的信息,例如字体名称和字体大小。例如,检查以下代码片段:

输出

以下截图显示了从 PDF 文档中提取的字体信息:

结论

总之,pdfminer.six 具有从 PDF 文档中提取文本和其他信息的功能,但缺乏从 PDF 中提取图像和表格等功能。

值得注意的是,pdfminer.six 库支持将 PDF 页面提取为图像,但这与提取 PDF 文档中嵌入的图像不同,pdfminer.six 不支持提取嵌入的图像。不过,开发人员仍然可以依靠它在 Python 中解析 PDF 以提取文本来满足他们的数据分析需求。

类似产品

 中国人