Библиотека Python для преобразования PDF в HTML/XML

Бесплатная библиотека Python с открытым исходным кодом для преобразования PDF-документов в HTML и XML.

Что такое pdfminer.six?

pdfminer.six — это бесплатная библиотека Python с открытым исходным кодом, которую можно использовать для преобразования PDF-документов в другие форматы.

Вот краткий список основных функций конвертации PDF-файлов:

  • Преобразование PDF в HTML: преобразуйте PDF-документы в формат HTML, сохраняя структуру и макет документа.
  • Преобразование PDF в XML: преобразуйте файлы PDF в формат XML, сохраняя все детали, включая шрифты и другие элементы.
GitHub

Статистика GitHub

Имя:
Язык:
Звезды:
Вилки:
Лицензия:
Репозиторий последний раз обновлялся на

Начало работы с pdfminer.six

Вам понадобится Python версии 3.6.0 или выше для установки и использования pypdf. Поэтому сначала установите Python, а затем используйте команды ниже для установки pypdf на свой компьютер с помощью pip и виртуальной среды.

линукс


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Окна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Конвертировать PDF в HTML

Мы можем преобразовать PDF-документ в формат HTML, используя функцию extract_text_to_fp библиотеки pdfminer.six (с типом вывода html), предоставляемую библиотекой, как показано в следующем фрагменте кода:

Выход

На следующем снимке экрана показан HTML-файл, созданный путем преобразования PDF-документа:

Преобразование PDF в XML

Мы также можем преобразовать PDF-документ в формат XML, используя ту же функцию extract_text_to_fp (но с типом вывода, установленным на xml), предоставляемую библиотекой, как показано в приведенном ниже фрагменте кода:

Выход

На следующем снимке экрана показано содержимое XML, преобразованное из документа PDF:

Заключение

Как правило, pdfminer.six поддерживает преобразование PDF-документов в формат XML без каких-либо проблем, но при попытке преобразовать PDF в HTML ему удается передать текстовое содержимое, но часто нарушается общая структура.

Похожие Продукты

 Русский