Knihovna Python pro převod PDF do HTML/XML
Bezplatná a otevřená knihovna Python pro převod dokumentů PDF do HTML a XML.
Co je pdfminer.six?
pdfminer.six je bezplatná a otevřená knihovna Pythonu, kterou lze použít k převodu dokumentů PDF do jiných formátů.
Zde je stručný seznam hlavních funkcí převodu PDF:
- Konverze PDF do HTML: Převeďte dokumenty PDF do formátu HTML při zachování struktury a rozvržení dokumentu.
- Konverze PDF do XML: Transformujte soubory PDF do formátu XML se zachycením všech detailů, včetně písem a dalších prvků.
Začínáme s pdfminer.six
K instalaci a používání pypdf potřebujete Python verze 3.6.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte pypdf do svého počítače pomocí pip a virtuální prostředí.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Operační Systém Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Převést PDF do HTML
Dokument PDF můžeme převést do formátu HTML pomocí funkce extract_text_to_fp knihovny pdfminer.six (s typem výstupu nastaveným na html), kterou knihovna poskytuje, jak je znázorněno na níže uvedeném úryvku kódu:
Výstup
Následující snímek obrazovky ukazuje soubor HTML vygenerovaný převodem dokumentu PDF:
Převod PDF do XML
Můžeme také převést dokument PDF do formátu XML pomocí stejné funkce extract_text_to_fp (avšak s typem výstupu nastaveným na xml), kterou poskytuje knihovna, jak je znázorněno na níže uvedeném úryvku kódu:
Výstup
Následující snímek obrazovky ukazuje obsah XML převedený z dokumentu PDF:
Závěr
Obecně pdfminer.six podporuje převod dokumentů PDF do formátu XML bez problémů, ale při pokusu o převod PDF do HTML se mu podaří přenést textový obsah, ale často naruší celkové rozvržení.