Бібліотека Python для перетворення PDF у HTML/XML

Безкоштовна бібліотека Python із відкритим вихідним кодом для перетворення документів PDF у HTML і XML.

Що таке pdfminer.six?

pdfminer.six — це безкоштовна бібліотека Python з відкритим вихідним кодом, яку можна використовувати для конвертації документів PDF в інші формати.

Ось короткий перелік основних функцій перетворення PDF:

Перетворення PDF у HTML: конвертуйте документи PDF у формат HTML, зберігаючи структуру та макет документа.
Перетворення PDF у XML: перетворюйте файли PDF у формат XML, запам’ятовуючи всі деталі, зокрема шрифти та інші елементи.

Статистика GitHub

Ім'я:
Мова:
зірки:
Вилки:
Ліцензія:
Репозиторій востаннє оновлено о

Початок роботи з pdfminer.six

Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім скористайтеся наведеними нижче командами, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

вікна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Перетворення PDF на HTML

Ми можемо конвертувати PDF-документ у формат HTML за допомогою функції extract_text_to_fp бібліотеки pdfminer.six (з типом виведення html), наданої бібліотекою, як показано у фрагменті коду нижче:

Вихід

На наступному знімку екрана показано файл HTML, створений шляхом перетворення документа PDF:

Перетворення PDF в XML

Ми також можемо конвертувати PDF-документ у формат XML за допомогою тієї самої функції extract_text_to_fp (але з типом виводу xml), що надається бібліотекою, як показано у наведеному нижче фрагменті коду:

Вихід

На наступному знімку екрана показано вміст XML, перетворений із документа PDF:

Висновок

Загалом pdfminer.six підтримує конвертацію PDF-документів у формат XML без будь-яких проблем, але під час спроби конвертувати PDF-файл у HTML йому вдається передати текстовий вміст, але часто порушує загальний макет.

Бібліотека Python для перетворення PDF у HTML/XML

Безкоштовна бібліотека Python із відкритим вихідним кодом для перетворення документів PDF у HTML і XML.

Що таке pdfminer.six?

Статистика GitHub

Початок роботи з pdfminer.six

Linux

MacOS

вікна

Перетворення PDF на HTML

Вихід

Перетворення PDF в XML

Вихід

Висновок

Подібні Продукти