Knihovna Python pro převod PDF do HTML/XML

Bezplatná a otevřená knihovna Python pro převod dokumentů PDF do HTML a XML.

Co je pdfminer.six?

pdfminer.six je bezplatná a otevřená knihovna Pythonu, kterou lze použít k převodu dokumentů PDF do jiných formátů.

Zde je stručný seznam hlavních funkcí převodu PDF:

Konverze PDF do HTML: Převeďte dokumenty PDF do formátu HTML při zachování struktury a rozvržení dokumentu.
Konverze PDF do XML: Transformujte soubory PDF do formátu XML se zachycením všech detailů, včetně písem a dalších prvků.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Začínáme s pdfminer.six

K instalaci a používání pypdf potřebujete Python verze 3.6.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte pypdf do svého počítače pomocí pip a virtuální prostředí.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Převést PDF do HTML

Dokument PDF můžeme převést do formátu HTML pomocí funkce extract_text_to_fp knihovny pdfminer.six (s typem výstupu nastaveným na html), kterou knihovna poskytuje, jak je znázorněno na níže uvedeném úryvku kódu:

Výstup

Následující snímek obrazovky ukazuje soubor HTML vygenerovaný převodem dokumentu PDF:

Převod PDF do XML

Můžeme také převést dokument PDF do formátu XML pomocí stejné funkce extract_text_to_fp (avšak s typem výstupu nastaveným na xml), kterou poskytuje knihovna, jak je znázorněno na níže uvedeném úryvku kódu:

Výstup

Následující snímek obrazovky ukazuje obsah XML převedený z dokumentu PDF:

Závěr

Obecně pdfminer.six podporuje převod dokumentů PDF do formátu XML bez problémů, ale při pokusu o převod PDF do HTML se mu podaří přenést textový obsah, ale často naruší celkové rozvržení.

Knihovna Python pro převod PDF do HTML/XML

Bezplatná a otevřená knihovna Python pro převod dokumentů PDF do HTML a XML.

Co je pdfminer.six?

Statistiky GitHubu

Začínáme s pdfminer.six

Linux

MacOS

Windows

Převést PDF do HTML

Výstup

Převod PDF do XML

Výstup

Závěr

Podobné Produkty