PDF 到 HTML/XML 转换 Python 库

免费开源 Python 库，用于将 PDF 文档转换为 HTML 和 XML。

pdfminer.six 是一个免费的开源 Python 库，可用于将 PDF 文档转换为其他格式。

以下是其主要 PDF 转换功能的简要列表：

姓名：
语言：
星星：
叉子：
执照：
存储库上次更新于

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此，首先安装 Python，然后使用以下命令通过 pip 和虚拟环境在您的机器上安装 pypdf。


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six


python -m venv venv
source venv/bin/activate
pip install pdfminer.six


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

我们可以使用 pdfminer.six 库提供的 extract_text_to_fp 函数（输出类型设置为 html）将 PDF 文档转换为 HTML 格式，如下面的代码片段所示：

以下截图显示了转换PDF文档后生成的HTML文件：

我们还可以使用库提供的相同 extract_text_to_fp 函数（但输出类型设置为 xml）将 PDF 文档转换为 XML 格式，如下面的代码片段所示：

以下截图显示了从 PDF 文档转换而来的 XML 内容：

通常，pdfminer.six 支持将 PDF 文档转换为 XML 格式而不会出现任何问题，但是在尝试将 PDF 转换为 HTML 时，它可以传输文本内容，但通常会破坏整体布局。