PDF uz HTML/XML konvertēšanas Python bibliotēka
Bezmaksas un atvērtā pirmkoda Python bibliotēka, lai pārvērstu PDF dokumentus HTML un XML formātā.
Kas ir pdfminer.six?
pdfminer.six ir bezmaksas un atvērtā koda Python bibliotēka, ko var izmantot, lai pārvērstu PDF dokumentus citos formātos.
Šeit ir īss galveno PDF konvertēšanas funkciju saraksts:
- PDF konvertēšana uz HTML: konvertējiet PDF dokumentus HTML formātā, vienlaikus saglabājot dokumenta struktūru un izkārtojumu.
- PDF konvertēšana uz XML: pārveidojiet PDF failus XML formātā, tverot visu informāciju, tostarp fontus un citus elementus.
Darba sākšana ar pdfminer.six
Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Pārvērst PDF uz HTML
Mēs varam pārvērst PDF dokumentu HTML formātā, izmantojot bibliotēkas nodrošināto pdfminer.six bibliotēkas funkciju extract_text_to_fp (ar izvades veidu iestatītu uz html), kā parādīts tālāk esošajā koda fragmentā:
Šajā ekrānuzņēmumā ir parādīts HTML fails, kas ģenerēts, konvertējot PDF avota dokumentu:
PDF konvertēšana uz XML
Mēs varam arī konvertēt PDF dokumentu XML formātā, izmantojot to pašu funkciju extract_text_to_fp (bet ar izvades veidu iestatītu uz xml), ko nodrošina bibliotēka, kā parādīts tālāk esošajā koda fragmentā:
Šis ekrānuzņēmums parāda XML saturu, kas konvertēts no PDF dokumenta:
Secinājums
Parasti pdfminer.six bez problēmām atbalsta PDF dokumentu konvertēšanu XML formātā, taču, mēģinot pārveidot PDF par HTML, tas izdodas pārsūtīt teksta saturu, bet bieži vien izjauc kopējo izkārtojumu.