PDF til HTML/XML konvertering Python bibliotek
Gratis & open source Python-bibliotek til at konvertere PDF-dokumenter til HTML og XML.
Hvad er pdfminer.six?
pdfminer.six er et gratis og open source Python-bibliotek, som kan bruges til at konvertere PDF-dokumenter til andre formater.
Her er en kort liste over de vigtigste PDF-konverteringsfunktioner:
- PDF til HTML-konvertering: Konverter PDF-dokumenter til HTML-format, mens du bevarer dokumentets struktur og layout.
- PDF til XML-konvertering: Transform PDF-filer til XML-format, og indfang alle detaljer, inklusive skrifttyper og andre elementer.
Kom godt i gang med pdfminer.six
Du skal bruge Python version 3.6.0 eller nyere for at installere og bruge pypdf. Så installer først Python og brug derefter nedenstående kommandoer til at installere pypdf på din maskine ved hjælp af pip og virtuelt miljø a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konverter PDF til HTML
Vi kan konvertere et PDF-dokument til HTML-format ved hjælp af pdfminer.six-bibliotekets extract_text_to_fp-funktion (med output-typen indstillet til html) leveret af biblioteket, som vist i nedenstående kodestykke:
Produktion
Følgende skærmbillede viser HTML-filen, der er genereret ved at konvertere PDF-soumentet:
Konvertering af PDF til XML
Vi kan også konvertere et PDF-dokument til XML-format ved at bruge den samme extract_text_to_fp-funktion (men med output-typen sat til xml), som biblioteket leverer, som vist i nedenstående kodestykke:
Produktion
Følgende skærmbillede viser XML-indholdet konverteret fra PDF-dokumentet:
Konklusion
Generelt understøtter pdfminer.six konvertering af PDF-dokumenter til XML-format uden problemer, men når man forsøger at konvertere en PDF til HTML, formår det at overføre tekstindholdet, men forstyrrer ofte det overordnede layout.