PDF 到 HTML/XML 转换 Python 库
免费开源 Python 库,用于将 PDF 文档转换为 HTML 和 XML。
什么是 pdfminer.six?
pdfminer.six 是一个免费的开源 Python 库,可用于将 PDF 文档转换为其他格式。
以下是其主要 PDF 转换功能的简要列表:
- PDF 到 HTML 转换:将 PDF 文档转换为 HTML 格式,同时保留文档的结构和布局。
- PDF 到 XML 转换:将 PDF 文件转换为 XML 格式,捕获所有细节,包括字体和其他元素。
开始使用 pdfminer.six
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令通过 pip 和 虚拟环境 在您的机器上安装 pypdf。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
苹果系统
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
将 PDF 转换为 HTML
我们可以使用 pdfminer.six 库提供的 extract_text_to_fp 函数(输出类型设置为 html)将 PDF 文档转换为 HTML 格式,如下面的代码片段所示:
输出
以下截图显示了转换PDF文档后生成的HTML文件:
将 PDF 转换为 XML
我们还可以使用库提供的相同 extract_text_to_fp 函数(但输出类型设置为 xml)将 PDF 文档转换为 XML 格式,如下面的代码片段所示:
输出
以下截图显示了从 PDF 文档转换而来的 XML 内容:
结论
通常,pdfminer.six 支持将 PDF 文档转换为 XML 格式而不会出现任何问题,但是在尝试将 PDF 转换为 HTML 时,它可以传输文本内容,但通常会破坏整体布局。