PDF į HTML/XML konvertavimo Python biblioteka
Nemokama ir atvirojo kodo Python biblioteka, skirta konvertuoti PDF dokumentus į HTML ir XML.
Kas yra pdfminer.six?
pdfminer.six yra nemokama atvirojo kodo Python biblioteka, kurią galima naudoti PDF dokumentams konvertuoti į kitus formatus.
Štai trumpas pagrindinių PDF konvertavimo funkcijų sąrašas:
- PDF konvertavimas į HTML: konvertuokite PDF dokumentus į HTML formatą išsaugant dokumento struktūrą ir išdėstymą.
- PDF konvertavimas į XML: paverskite PDF failus į XML formatą, užfiksuodami visą informaciją, įskaitant šriftus ir kitus elementus.
Darbo su pdfminer.six pradžia
Norint įdiegti ir naudoti pypdf, reikia 3.6.0 ar naujesnės Python versijos. Taigi pirmiausia įdiekite Python, o tada naudokite toliau pateiktas komandas, kad įdiegtumėte pypdf savo kompiuteryje naudodami pip ir virtuali aplinka a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konvertuoti PDF į HTML
Galime konvertuoti PDF dokumentą į HTML formatą naudodami pdfminer.six bibliotekos funkciją extract_text_to_fp (kai išvesties tipas nustatytas į html), kurią teikia biblioteka, kaip parodyta toliau pateiktame kodo fragmente:
Šioje ekrano kopijoje rodomas HTML failas, sukurtas konvertuojant PDF dokumentą:
PDF konvertavimas į XML
Taip pat galime konvertuoti PDF dokumentą į XML formatą naudodami tą pačią funkciją extract_text_to_fp (tačiau su išvesties tipu nustatyta xml), kurią teikia biblioteka, kaip parodyta toliau pateiktame kodo fragmente:
Šioje ekrano kopijoje parodytas XML turinys, konvertuotas iš PDF dokumento:
Išvada
Paprastai pdfminer.six palaiko PDF dokumentų konvertavimą į XML formatą be jokių problemų, tačiau bandant konvertuoti PDF į HTML, jis sugeba perkelti teksto turinį, tačiau dažnai sutrikdo bendrą išdėstymą.