PDF naar HTML/XML conversie Python-bibliotheek

Gratis en open source Python-bibliotheek om PDF-documenten naar HTML en XML te converteren.

Wat is pdfminer.six?

pdfminer.six is een gratis en open source Python-bibliotheek waarmee u PDF-documenten naar andere formaten kunt converteren.

Hieronder vindt u een korte lijst met de belangrijkste PDF-conversiefuncties:

PDF naar HTML-conversie: Converteer PDF-documenten naar HTML-formaat, waarbij de structuur en lay-out van het document behouden blijven.
PDF naar XML-conversie: Converteer PDF-bestanden naar XML-formaat, waarbij alle details, inclusief lettertypen en andere elementen, worden vastgelegd.

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Aan de slag met pdfminer.six

Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en gebruiken. Installeer dus eerst Python en gebruik dan onderstaande commando's om pypdf op je machine te installeren met pip en virtual environment.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Vensters


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF naar HTML converteren

We kunnen een PDF-document converteren naar HTML-formaat met behulp van de extract_text_to_fp-functie van de pdfminer.six-bibliotheek (met het uitvoertype ingesteld op html), zoals weergegeven in het onderstaande codefragment:

Uitvoer

De volgende schermafbeelding toont het HTML-bestand dat is gegenereerd door het converteren van het PDF-document:

PDF naar XML converteren

We kunnen ook een PDF-document converteren naar XML-formaat met behulp van dezelfde extract_text_to_fp-functie (maar met het uitvoertype ingesteld op xml) die door de bibliotheek wordt geleverd, zoals weergegeven in het onderstaande codefragment:

Uitvoer

De volgende schermafbeelding toont de XML-inhoud die is geconverteerd uit het PDF-document:

Conclusie

Over het algemeen ondersteunt pdfminer.six het probleemloos converteren van PDF-documenten naar XML-formaat. Wanneer u echter een PDF naar HTML wilt converteren, wordt de tekstinhoud wel overgebracht, maar wordt de algehele lay-out vaak verstoord.

PDF naar HTML/XML conversie Python-bibliotheek

Gratis en open source Python-bibliotheek om PDF-documenten naar HTML en XML te converteren.

Wat is pdfminer.six?

GitHub-statistieken

Aan de slag met pdfminer.six

Linux

MacOS

Vensters

PDF naar HTML converteren

Uitvoer

PDF naar XML converteren

Uitvoer

Conclusie

Vergelijkbare Producten