1. Producten
  2.   Conversie
  3.   Python
  4.   pdfminer.six
 
  

PDF naar HTML/XML conversie Python-bibliotheek

Gratis en open source Python-bibliotheek om PDF-documenten naar HTML en XML te converteren.

Wat is pdfminer.six?

pdfminer.six is een gratis en open source Python-bibliotheek die kan worden gebruikt om PDF-documenten naar andere formaten te converteren.

Hier is een korte lijst met de belangrijkste PDF-conversiefuncties:

  • Conversie van PDF naar HTML: Converteer PDF-documenten naar HTML-indeling met behoud van de structuur en lay-out van het document.
  • Conversie van PDF naar XML: Transformeer PDF-bestanden naar XML-indeling, waarbij alle details worden vastgelegd, inclusief lettertypen en andere elementen.
GitHub

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Aan de slag met pdfminer.six

Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en te gebruiken. Installeer dus eerst Python en gebruik vervolgens de onderstaande opdrachten om pypdf op uw computer te installeren met behulp van pip en virtuele omgeving.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ramen


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Converteer PDF naar HTML

We kunnen een PDF-document naar HTML-indeling converteren met behulp van de extract_text_to_fp-functie van de pdfminer.six-bibliotheek (waarbij het uitvoertype is ingesteld op html) die door de bibliotheek wordt geleverd, zoals weergegeven in het onderstaande codefragment:

De volgende schermafbeelding toont het HTML-bestand dat is gegenereerd door het converteren van het PDF-document:

PDF naar XML converteren

We kunnen een PDF-document ook naar XML-formaat converteren met dezelfde extract_text_to_fp functie (maar met het uitvoertype ingesteld op xml) die door de bibliotheek wordt geleverd, zoals weergegeven in het onderstaande codefragment:

De volgende schermafbeelding toont de XML-inhoud die is geconverteerd vanuit het PDF-document:

Conclusie

Over het algemeen ondersteunt pdfminer.six het converteren van PDF-documenten naar XML-formaat zonder enige problemen, maar wanneer het probeert een PDF naar HTML te converteren, slaagt het erin de tekstinhoud over te dragen, maar verstoort het vaak de algehele lay-out.

Vergelijkbare Producten

 Nederlands