PDF til HTML/XML konvertering Python Library

Gratis og åpen kildekode Python-bibliotek for å konvertere PDF-dokumenter til HTML og XML.

Hva er pdfminer.six?

pdfminer.six er et gratis og åpen kildekode Python-bibliotek som kan brukes til å konvertere PDF-dokumenter til andre formater.

Her er en kort liste over de viktigste PDF-konverteringsfunksjonene:

PDF til HTML-konvertering: Konverter PDF-dokumenter til HTML-format mens du beholder dokumentets struktur og layout.
PDF til XML-konvertering: Transform PDF-filer til XML-format, og fange opp alle detaljer, inkludert fonter og andre elementer.

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Komme i gang med pdfminer.six

Du trenger Python versjon 3.6.0 eller høyere for å installere og bruke pypdf. Så installer først Python og bruk deretter kommandoene nedenfor for å installere pypdf på maskinen din ved å bruke pip og virtuelt miljø a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konverter PDF til HTML

Vi kan konvertere et PDF-dokument til HTML-format ved å bruke pdfminer.six-bibliotekets extract_text_to_fp-funksjon (med utdatatypen satt til html) levert av biblioteket, som vist i kodebiten nedenfor:

Produksjon

Følgende skjermbilde viser HTML-filen generert ved å konvertere PDF-dokumentet:

Konvertering av PDF til XML

Vi kan også konvertere et PDF-dokument til XML-format ved å bruke den samme extract_text_to_fp-funksjonen (men med utdatatypen satt til xml) levert av biblioteket, som vist i kodebiten nedenfor:

Produksjon

Følgende skjermbilde viser XML-innholdet konvertert fra PDF-dokumentet:

Konklusjon

Vanligvis støtter pdfminer.six konvertering av PDF-dokumenter til XML-format uten problemer, men når du prøver å konvertere en PDF til HTML, klarer den å overføre tekstinnholdet, men forstyrrer ofte den generelle layouten.

PDF til HTML/XML konvertering Python Library

Gratis og åpen kildekode Python-bibliotek for å konvertere PDF-dokumenter til HTML og XML.

Hva er pdfminer.six?

GitHub-statistikk

Komme i gang med pdfminer.six

Linux

MacOS

Windows

Konverter PDF til HTML

Produksjon

Konvertering av PDF til XML

Produksjon

Konklusjon

Lignende Produkter