Бібліотека Python для перетворення PDF у HTML/XML
Безкоштовна бібліотека Python із відкритим кодом для перетворення PDF-документів у HTML і XML.
Що таке pdfminer.six?
pdfminer.six — це безкоштовна бібліотека Python з відкритим вихідним кодом, яку можна використовувати для конвертації документів PDF в інші формати.
Ось короткий перелік основних функцій перетворення PDF:
- Перетворення PDF у HTML: конвертуйте документи PDF у формат HTML, зберігаючи структуру та макет документа.
- Перетворення PDF у XML: перетворюйте файли PDF у формат XML, запам’ятовуючи всі деталі, зокрема шрифти та інші елементи.
Початок роботи з pdfminer.six
Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім використовуйте наведені нижче команди, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
вікна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Перетворення PDF на HTML
Ми можемо конвертувати PDF-документ у формат HTML за допомогою функції extract_text_to_fp бібліотеки pdfminer.six (з типом виведення html), наданої бібліотекою, як показано у фрагменті коду нижче:
На наступному знімку екрана показано файл HTML, створений шляхом перетворення документа PDF:
Перетворення PDF в XML
Ми також можемо конвертувати PDF-документ у формат XML за допомогою тієї самої функції extract_text_to_fp (але з типом виводу xml), що надається бібліотекою, як показано у наведеному нижче фрагменті коду:
На наступному знімку екрана показано вміст XML, перетворений із документа PDF:
Висновок
Загалом pdfminer.six підтримує конвертацію PDF-документів у формат XML без проблем, але під час спроби конвертувати PDF-файл у HTML йому вдається передати текстовий вміст, але часто порушує загальний макет.