PDF 到 HTML/XML 转换 Python 库
免费开源 Python 库,用于将 PDF 文档转换为 HTML 和 XML。
什么是 pdfminer.six?
pdfminer.six 是一个免费开源的 Python 库,可用于将 PDF 文档转换为其他格式。
以下是其主要 PDF 转换功能的简要列表:
- PDF 到 HTML 转换:将 PDF 文档转换为 HTML 格式,同时保留文档的结构和布局。
- PDF 到 XML 转换:将 PDF 文件转换为 XML 格式,捕获所有详细信息,包括字体和其他元素。
pdfminer.six 入门
您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip 和虚拟环境。
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
苹果系统
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
视窗
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
将 PDF 转换为 HTML
我们可以使用pdfminer.six库提供的extract_text_to_fp函数(输出类型设置为html)将PDF文档转换为HTML格式,如下代码片段所示:
输出
下面的截图显示了转换PDF文档生成的HTML文件:
将 PDF 转换为 XML
我们还可以使用库提供的相同的 extract_text_to_fp 函数(但输出类型设置为 xml)将 PDF 文档转换为 XML 格式,如下面的代码片段所示:
输出
以下屏幕截图显示了从 PDF 文档转换而来的 XML 内容:
结论
一般来说,pdfminer.six 支持将 PDF 文档转换为 XML 格式,没有任何问题,但在尝试将 PDF 转换为 HTML 时,它可以成功传输文本内容,但常常会破坏整体布局。