1. Produkter
  2.   Konvertering
  3.   Python
  4.   pdfminer.six
 
  

PDF til HTML/XML konvertering Python bibliotek

Gratis & open source Python-bibliotek til at konvertere PDF-dokumenter til HTML og XML.

Hvad er pdfminer.six?

pdfminer.six er et gratis og open source Python-bibliotek, som kan bruges til at konvertere PDF-dokumenter til andre formater.

Her er en kort liste over de vigtigste PDF-konverteringsfunktioner:

  • PDF til HTML-konvertering: Konverter PDF-dokumenter til HTML-format, mens du bevarer dokumentets struktur og layout.
  • PDF til XML-konvertering: Transform PDF-filer til XML-format, og indfang alle detaljer, inklusive skrifttyper og andre elementer.
GitHub

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Kom godt i gang med pdfminer.six

Du skal bruge Python version 3.6.0 eller nyere for at installere og bruge pypdf. Så installer først Python og brug derefter nedenstående kommandoer til at installere pypdf på din maskine ved hjælp af pip og virtuelt miljø a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konverter PDF til HTML

Vi kan konvertere et PDF-dokument til HTML-format ved hjælp af pdfminer.six-bibliotekets extract_text_to_fp-funktion (med output-typen indstillet til html) leveret af biblioteket, som vist i nedenstående kodestykke:

Produktion

Følgende skærmbillede viser HTML-filen, der er genereret ved at konvertere PDF-soumentet:

Konvertering af PDF til XML

Vi kan også konvertere et PDF-dokument til XML-format ved at bruge den samme extract_text_to_fp-funktion (men med output-typen sat til xml), som biblioteket leverer, som vist i nedenstående kodestykke:

Produktion

Følgende skærmbillede viser XML-indholdet konverteret fra PDF-dokumentet:

Konklusion

Generelt understøtter pdfminer.six konvertering af PDF-dokumenter til XML-format uden problemer, men når man forsøger at konvertere en PDF til HTML, formår det at overføre tekstindholdet, men forstyrrer ofte det overordnede layout.

Lignende Produkter

 Dansk