1. 产品
  2.   转换
  3.   Python
  4.   pdfminer.six
 
  

PDF 到 HTML/XML 转换 Python 库

免费开源 Python 库,用于将 PDF 文档转换为 HTML 和 XML。

什么是 pdfminer.six?

pdfminer.six 是一个免费的开源 Python 库,可用于将 PDF 文档转换为其他格式。

以下是其主要 PDF 转换功能的简要列表:

  • PDF 到 HTML 转换:将 PDF 文档转换为 HTML 格式,同时保留文档的结构和布局。
  • PDF 到 XML 转换:将 PDF 文件转换为 XML 格式,捕获所有细节,包括字体和其他元素。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

开始使用 pdfminer.six

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令通过 pip虚拟环境 在您的机器上安装 pypdf。

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

苹果系统


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

将 PDF 转换为 HTML

我们可以使用 pdfminer.six 库提供的 extract_text_to_fp 函数(输出类型设置为 html)将 PDF 文档转换为 HTML 格式,如下面的代码片段所示:

输出

以下截图显示了转换PDF文档后生成的HTML文件:

将 PDF 转换为 XML

我们还可以使用库提供的相同 extract_text_to_fp 函数(但输出类型设置为 xml)将 PDF 文档转换为 XML 格式,如下面的代码片段所示:

输出

以下截图显示了从 PDF 文档转换而来的 XML 内容:

结论

通常,pdfminer.six 支持将 PDF 文档转换为 XML 格式而不会出现任何问题,但是在尝试将 PDF 转换为 HTML 时,它可以传输文本内容,但通常会破坏整体布局。

类似产品

 中国人