1. 产品
  2.   转换
  3.   Python
  4.   pdfminer.six
 
  

PDF 到 HTML/XML 转换 Python 库

免费开源 Python 库,用于将 PDF 文档转换为 HTML 和 XML。

什么是 pdfminer.six?

pdfminer.six 是一个免费开源的 Python 库,可用于将 PDF 文档转换为其他格式。

以下是其主要 PDF 转换功能的简要列表:

  • PDF 到 HTML 转换:将 PDF 文档转换为 HTML 格式,同时保留文档的结构和布局。
  • PDF 到 XML 转换:将 PDF 文件转换为 XML 格式,捕获所有详细信息,包括字体和其他元素。
GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

pdfminer.six 入门

您需要 Python 版本 3.6.0 或更高版本才能安装和使用 pypdf。因此,首先安装 Python,然后使用以下命令使用 pip虚拟环境

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

苹果系统


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

视窗


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

将 PDF 转换为 HTML

我们可以使用pdfminer.six库提供的extract_text_to_fp函数(输出类型设置为html)将PDF文档转换为HTML格式,如下代码片段所示:

输出

下面的截图显示了转换PDF文档生成的HTML文件:

将 PDF 转换为 XML

我们还可以使用库提供的相同的 extract_text_to_fp 函数(但输出类型设置为 xml)将 PDF 文档转换为 XML 格式,如下面的代码片段所示:

输出

以下屏幕截图显示了从 PDF 文档转换而来的 XML 内容:

结论

一般来说,pdfminer.six 支持将 PDF 文档转换为 XML 格式,没有任何问题,但在尝试将 PDF 转换为 HTML 时,它可以成功传输文本内容,但常常会破坏整体布局。

类似产品

 中国人