开源 Python PDF 解析器库

免费开源 Python 库用于解析 PDF 并提取带有格式信息的文本。

Pdfminer.six 是一个开源 Python 库和工具集，用于从 PDF 文档中提取数据。您可以解析 PDF 文档并从 PDF 中提取文本、目录和标记内容等进行数据分析。

以下是其解析功能的简要列表：

姓名：
语言：
星星：
叉子：
执照：
存储库上次更新于

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此，首先安装 Python，然后使用以下命令通过 pip 和虚拟环境在您的机器上安装 pypdf。


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six


python -m venv venv
source venv/bin/activate
pip install pdfminer.six


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

您可以使用 Python 中的 pdfminer.six 库通过 extract_text 函数从 PDF 文档中提取文本，如下面的代码片段所示：

以下截图显示了从 PDF 文档中提取的文本：

我们还可以通过遍历 PDF 中每页的布局元素来提取有关 PDF 文档中使用的字体的信息，例如字体名称和字体大小。例如，检查以下代码片段：

以下截图显示了从 PDF 文档中提取的字体信息：

总之，pdfminer.six 具有从 PDF 文档中提取文本和其他信息的功能，但缺乏从 PDF 中提取图像和表格等功能。

值得注意的是，pdfminer.six 库支持将 PDF 页面提取为图像，但这与提取 PDF 文档中嵌入的图像不同，pdfminer.six 不支持提取嵌入的图像。不过，开发人员仍然可以依靠它在 Python 中解析 PDF 以提取文本来满足他们的数据分析需求。