Bibliotecă Python de conversie PDF în HTML/XML
Bibliotecă Python gratuită și open source pentru a converti documente PDF în HTML și XML.
Ce este pdfminer.six?
pdfminer.six este o bibliotecă Python gratuită și open source care poate fi folosită pentru a converti documente PDF în alte formate.
Iată o scurtă listă a principalelor sale caracteristici de conversie PDF:
- Conversie PDF în HTML: convertiți documentele PDF în format HTML, păstrând în același timp structura și aspectul documentului.
- Conversie PDF în XML: transformați fișierele PDF în format XML, captând toate detaliile, inclusiv fonturile și alte elemente.
Noțiuni introductive cu pdfminer.six
Aveți nevoie de versiunea Python 3.6.0 sau mai mare pentru a instala și utiliza pypdf. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala pypdf pe computer folosind pip și mediu virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Convertiți PDF în HTML
Putem converti un document PDF în format HTML folosind funcția extract_text_to_fp a bibliotecii pdfminer.six (cu tipul de ieșire setat la html) furnizată de bibliotecă, așa cum se arată în fragmentul de cod de mai jos:
Următoarea captură de ecran arată fișierul HTML generat prin conversia documentului PDF:
Conversia PDF în XML
De asemenea, putem converti un document PDF în format XML utilizând aceeași funcție extract_text_to_fp (dar cu tipul de ieșire setat la xml) furnizată de bibliotecă, așa cum se arată în fragmentul de cod de mai jos:
Următoarea captură de ecran arată conținutul XML convertit din documentul PDF:
Concluzie
În general, pdfminer.six acceptă conversia documentelor PDF în format XML fără probleme, dar atunci când încearcă să convertească un PDF în HTML, reușește să transfere conținutul textului, dar deseori perturbă aspectul general.