1. Products
  2.   Conversion
  3.   Python
  4.   pdfminer.six
 
  

PDF uz HTML/XML konvertēšanas Python bibliotēka

Bezmaksas un atvērtā pirmkoda Python bibliotēka, lai pārvērstu PDF dokumentus HTML un XML formātā.

Kas ir pdfminer.six?

pdfminer.six ir bezmaksas un atvērtā koda Python bibliotēka, ko var izmantot, lai pārvērstu PDF dokumentus citos formātos.

Šeit ir īss galveno PDF konvertēšanas funkciju saraksts:

  • PDF konvertēšana uz HTML: konvertējiet PDF dokumentus HTML formātā, vienlaikus saglabājot dokumenta struktūru un izkārtojumu.
  • PDF konvertēšana uz XML: pārveidojiet PDF failus XML formātā, tverot visu informāciju, tostarp fontus un citus elementus.
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darba sākšana ar pdfminer.six

Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Pārvērst PDF uz HTML

Mēs varam pārvērst PDF dokumentu HTML formātā, izmantojot bibliotēkas nodrošināto pdfminer.six bibliotēkas funkciju extract_text_to_fp (ar izvades veidu iestatītu uz html), kā parādīts tālāk esošajā koda fragmentā:

Šajā ekrānuzņēmumā ir parādīts HTML fails, kas ģenerēts, konvertējot PDF avota dokumentu:

PDF konvertēšana uz XML

Mēs varam arī konvertēt PDF dokumentu XML formātā, izmantojot to pašu funkciju extract_text_to_fp (bet ar izvades veidu iestatītu uz xml), ko nodrošina bibliotēka, kā parādīts tālāk esošajā koda fragmentā:

Šis ekrānuzņēmums parāda XML saturu, kas konvertēts no PDF dokumenta:

Secinājums

Parasti pdfminer.six bez problēmām atbalsta PDF dokumentu konvertēšanu XML formātā, taču, mēģinot pārveidot PDF par HTML, tas izdodas pārsūtīt teksta saturu, bet bieži vien izjauc kopējo izkārtojumu.

Similar Products

 Latvian