PDF į HTML/XML konvertavimo Python biblioteka

Nemokama ir atvirojo kodo Python biblioteka, skirta konvertuoti PDF dokumentus į HTML ir XML.

Kas yra pdfminer.six?

pdfminer.six yra nemokama atvirojo kodo Python biblioteka, kurią galima naudoti PDF dokumentams konvertuoti į kitus formatus.

Štai trumpas pagrindinių PDF konvertavimo funkcijų sąrašas:

PDF konvertavimas į HTML: konvertuokite PDF dokumentus į HTML formatą išsaugant dokumento struktūrą ir išdėstymą.
PDF konvertavimas į XML: paverskite PDF failus į XML formatą, užfiksuodami visą informaciją, įskaitant šriftus ir kitus elementus.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darbo su pdfminer.six pradžia

Norint įdiegti ir naudoti pypdf, reikia 3.6.0 ar naujesnės Python versijos. Taigi pirmiausia įdiekite Python, o tada naudokite toliau pateiktas komandas, kad įdiegtumėte pypdf savo kompiuteryje naudodami pip ir virtuali aplinka a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konvertuoti PDF į HTML

Galime konvertuoti PDF dokumentą į HTML formatą naudodami pdfminer.six bibliotekos funkciją extract_text_to_fp (kai išvesties tipas nustatytas į html), kurią teikia biblioteka, kaip parodyta toliau pateiktame kodo fragmente:

Šioje ekrano kopijoje rodomas HTML failas, sukurtas konvertuojant PDF dokumentą:

PDF konvertavimas į XML

Taip pat galime konvertuoti PDF dokumentą į XML formatą naudodami tą pačią funkciją extract_text_to_fp (tačiau su išvesties tipu nustatyta xml), kurią teikia biblioteka, kaip parodyta toliau pateiktame kodo fragmente:

Šioje ekrano kopijoje parodytas XML turinys, konvertuotas iš PDF dokumento:

Išvada

Paprastai pdfminer.six palaiko PDF dokumentų konvertavimą į XML formatą be jokių problemų, tačiau bandant konvertuoti PDF į HTML, jis sugeba perkelti teksto turinį, tačiau dažnai sutrikdo bendrą išdėstymą.