Библиотека Python для преобразования PDF в HTML/XML
Бесплатная библиотека Python с открытым исходным кодом для преобразования PDF-документов в HTML и XML.
Что такое pdfminer.six?
pdfminer.six — это бесплатная библиотека Python с открытым исходным кодом, которую можно использовать для преобразования PDF-документов в другие форматы.
Вот краткий список основных функций конвертации PDF-файлов:
- Преобразование PDF в HTML: преобразуйте PDF-документы в формат HTML, сохраняя структуру и макет документа.
- Преобразование PDF в XML: преобразуйте файлы PDF в формат XML, сохраняя все детали, включая шрифты и другие элементы.
Начало работы с pdfminer.six
Вам понадобится Python версии 3.6.0 или выше для установки и использования pypdf. Поэтому сначала установите Python, а затем используйте команды ниже для установки pypdf на свой компьютер с помощью pip и виртуальной среды.
линукс
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Окна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Конвертировать PDF в HTML
Мы можем преобразовать PDF-документ в формат HTML, используя функцию extract_text_to_fp библиотеки pdfminer.six (с типом вывода html), предоставляемую библиотекой, как показано в следующем фрагменте кода:
Выход
На следующем снимке экрана показан HTML-файл, созданный путем преобразования PDF-документа:
Преобразование PDF в XML
Мы также можем преобразовать PDF-документ в формат XML, используя ту же функцию extract_text_to_fp (но с типом вывода, установленным на xml), предоставляемую библиотекой, как показано в приведенном ниже фрагменте кода:
Выход
На следующем снимке экрана показано содержимое XML, преобразованное из документа PDF:
Заключение
Как правило, pdfminer.six поддерживает преобразование PDF-документов в формат XML без каких-либо проблем, но при попытке преобразовать PDF в HTML ему удается передать текстовое содержимое, но часто нарушается общая структура.