PDF naar HTML/XML conversie Python-bibliotheek
Gratis en open source Python-bibliotheek om PDF-documenten naar HTML en XML te converteren.
Wat is pdfminer.six?
pdfminer.six is een gratis en open source Python-bibliotheek die kan worden gebruikt om PDF-documenten naar andere formaten te converteren.
Hier is een korte lijst met de belangrijkste PDF-conversiefuncties:
- Conversie van PDF naar HTML: Converteer PDF-documenten naar HTML-indeling met behoud van de structuur en lay-out van het document.
- Conversie van PDF naar XML: Transformeer PDF-bestanden naar XML-indeling, waarbij alle details worden vastgelegd, inclusief lettertypen en andere elementen.
Aan de slag met pdfminer.six
Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en te gebruiken. Installeer dus eerst Python en gebruik vervolgens de onderstaande opdrachten om pypdf op uw computer te installeren met behulp van pip en virtuele omgeving.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ramen
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Converteer PDF naar HTML
We kunnen een PDF-document naar HTML-indeling converteren met behulp van de extract_text_to_fp-functie van de pdfminer.six-bibliotheek (waarbij het uitvoertype is ingesteld op html) die door de bibliotheek wordt geleverd, zoals weergegeven in het onderstaande codefragment:
De volgende schermafbeelding toont het HTML-bestand dat is gegenereerd door het converteren van het PDF-document:
PDF naar XML converteren
We kunnen een PDF-document ook naar XML-formaat converteren met dezelfde extract_text_to_fp functie (maar met het uitvoertype ingesteld op xml) die door de bibliotheek wordt geleverd, zoals weergegeven in het onderstaande codefragment:
De volgende schermafbeelding toont de XML-inhoud die is geconverteerd vanuit het PDF-document:
Conclusie
Over het algemeen ondersteunt pdfminer.six het converteren van PDF-documenten naar XML-formaat zonder enige problemen, maar wanneer het probeert een PDF naar HTML te converteren, slaagt het erin de tekstinhoud over te dragen, maar verstoort het vaak de algehele lay-out.