Python-bibliotek för konvertering av PDF till HTML/XML

Gratis & öppen källkod Python-bibliotek för att konvertera PDF-dokument till HTML och XML.

Vad är pdfminer.six?

pdfminer.six är ett gratis Python-bibliotek med öppen källkod som kan användas för att konvertera PDF-dokument till andra format.

Här är en kort lista över dess viktigaste PDF-konverteringsfunktioner:

PDF till HTML-konvertering: Konvertera PDF-dokument till HTML-format samtidigt som dokumentets struktur och layout bevaras.
PDF till XML-konvertering: Förvandla PDF-filer till XML-format och fånga alla detaljer, inklusive typsnitt och andra element.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Komma igång med pdfminer.six

Du behöver Python version 3.6.0 eller senare för att installera och använda pypdf. Så installera först Python och använd sedan nedanstående kommandon för att installera pypdf på din maskin med pip och virtuell miljö a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konvertera PDF till HTML

Vi kan konvertera ett PDF-dokument till HTML-format med pdfminer.six-bibliotekets extract_text_to_fp-funktion (med utdatatyp inställd på html) som tillhandahålls av biblioteket, som visas i kodavsnittet nedan:

Produktion

Följande skärmdump visar HTML-filen som genereras genom att konvertera PDF-dokumentet:

Konvertera PDF till XML

Vi kan också konvertera ett PDF-dokument till XML-format med samma funktion extract_text_to_fp (men med utdatatypen inställd på xml) som tillhandahålls av biblioteket, som visas i kodavsnittet nedan:

Produktion

Följande skärmdump visar XML-innehållet konverterat från PDF-dokumentet:

Slutsats

I allmänhet stöder pdfminer.six konvertering av PDF-dokument till XML-format utan några problem, men när man försöker konvertera en PDF till HTML, lyckas den överföra textinnehållet men stör ofta den övergripande layouten.

Python-bibliotek för konvertering av PDF till HTML/XML

Gratis & öppen källkod Python-bibliotek för att konvertera PDF-dokument till HTML och XML.

Vad är pdfminer.six?

GitHub-statistik

Komma igång med pdfminer.six

Linux

MacOS

Windows

Konvertera PDF till HTML

Produktion

Konvertera PDF till XML

Produktion

Slutsats

Liknande Produkter