PDF til HTML/XML konvertering Python Library
Gratis og åpen kildekode Python-bibliotek for å konvertere PDF-dokumenter til HTML og XML.
Hva er pdfminer.six?
pdfminer.six er et gratis og åpen kildekode Python-bibliotek som kan brukes til å konvertere PDF-dokumenter til andre formater.
Her er en kort liste over de viktigste PDF-konverteringsfunksjonene:
- PDF til HTML-konvertering: Konverter PDF-dokumenter til HTML-format mens du beholder dokumentets struktur og layout.
- PDF til XML-konvertering: Transform PDF-filer til XML-format, og fange opp alle detaljer, inkludert fonter og andre elementer.
Komme i gang med pdfminer.six
Du trenger Python versjon 3.6.0 eller høyere for å installere og bruke pypdf. Så installer først Python og bruk deretter kommandoene nedenfor for å installere pypdf på maskinen din ved å bruke pip og virtuelt miljø a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac os
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konverter PDF til HTML
Vi kan konvertere et PDF-dokument til HTML-format ved å bruke pdfminer.six-bibliotekets extract_text_to_fp-funksjon (med utdatatypen satt til html) levert av biblioteket, som vist i kodebiten nedenfor:
Følgende skjermbilde viser HTML-filen generert ved å konvertere PDF-filen:
Konvertering av PDF til XML
Vi kan også konvertere et PDF-dokument til XML-format ved å bruke den samme extract_text_to_fp-funksjonen (men med utdatatypen satt til xml) levert av biblioteket, som vist i kodebiten nedenfor:
Følgende skjermbilde viser XML-innholdet konvertert fra PDF-dokumentet:
Konklusjon
Vanligvis støtter pdfminer.six konvertering av PDF-dokumenter til XML-format uten problemer, men når du prøver å konvertere en PDF til HTML, klarer den å overføre tekstinnholdet, men forstyrrer ofte den generelle layouten.