Bibliotecă Python de conversie PDF în HTML/XML

Bibliotecă Python gratuită și open source pentru a converti documente PDF în HTML și XML.

Ce este pdfminer.six?

pdfminer.six este o bibliotecă Python gratuită și open source care poate fi folosită pentru a converti documente PDF în alte formate.

Iată o scurtă listă a principalelor sale caracteristici de conversie PDF:

Conversie PDF în HTML: convertiți documentele PDF în format HTML, păstrând în același timp structura și aspectul documentului.
Conversie PDF în XML: transformați fișierele PDF în format XML, captând toate detaliile, inclusiv fonturile și alte elemente.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Noțiuni introductive cu pdfminer.six

Aveți nevoie de versiunea Python 3.6.0 sau mai mare pentru a instala și utiliza pypdf. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala pypdf pe computer folosind pip și mediu virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Convertiți PDF în HTML

Putem converti un document PDF în format HTML folosind funcția extract_text_to_fp a bibliotecii pdfminer.six (cu tipul de ieșire setat la html) furnizată de bibliotecă, așa cum se arată în fragmentul de cod de mai jos:

Următoarea captură de ecran arată fișierul HTML generat prin conversia documentului PDF:

Conversia PDF în XML

De asemenea, putem converti un document PDF în format XML utilizând aceeași funcție extract_text_to_fp (dar cu tipul de ieșire setat la xml) furnizată de bibliotecă, așa cum se arată în fragmentul de cod de mai jos:

Următoarea captură de ecran arată conținutul XML convertit din documentul PDF:

Concluzie

În general, pdfminer.six acceptă conversia documentelor PDF în format XML fără probleme, dar atunci când încearcă să convertească un PDF în HTML, reușește să transfere conținutul textului, dar deseori perturbă aspectul general.