Python-bibliotek för konvertering av PDF till HTML/XML
Gratis & öppen källkod Python-bibliotek för att konvertera PDF-dokument till HTML och XML.
Vad är pdfminer.six?
pdfminer.six är ett gratis Python-bibliotek med öppen källkod som kan användas för att konvertera PDF-dokument till andra format.
Här är en kort lista över dess viktigaste PDF-konverteringsfunktioner:
- PDF till HTML-konvertering: Konvertera PDF-dokument till HTML-format samtidigt som dokumentets struktur och layout bevaras.
- PDF till XML-konvertering: Förvandla PDF-filer till XML-format och fånga alla detaljer, inklusive typsnitt och andra element.
Komma igång med pdfminer.six
Du behöver Python version 3.6.0 eller senare för att installera och använda pypdf. Så installera först Python och använd sedan nedanstående kommandon för att installera pypdf på din maskin med pip och virtuell miljö a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konvertera PDF till HTML
Vi kan konvertera ett PDF-dokument till HTML-format med pdfminer.six-bibliotekets extract_text_to_fp-funktion (med utdatatyp inställd på html) som tillhandahålls av biblioteket, som visas i kodavsnittet nedan:
Produktion
Följande skärmdump visar HTML-filen som genereras genom att konvertera PDF-dokumentet:
Konvertera PDF till XML
Vi kan också konvertera ett PDF-dokument till XML-format med samma funktion extract_text_to_fp (men med utdatatypen inställd på xml) som tillhandahålls av biblioteket, som visas i kodavsnittet nedan:
Produktion
Följande skärmdump visar XML-innehållet konverterat från PDF-dokumentet:
Slutsats
I allmänhet stöder pdfminer.six konvertering av PDF-dokument till XML-format utan några problem, men när man försöker konvertera en PDF till HTML, lyckas den överföra textinnehållet men stör ofta den övergripande layouten.