Open Source Python PDF Parser Library
Bezplatná a otevřená knihovna Pythonu pro analýzu souborů PDF a extrahování textu s informacemi o formátování.
Co je pdfminer.six?
Pdfminer.six je open source knihovna Pythonu a sada nástrojů pro extrahování dat z dokumentů PDF. Můžete analyzovat dokumenty PDF a extrahovat text, obsah a označený obsah atd. z PDF pro analýzu dat.
Zde je stručný seznam funkcí analýzy:
- Extrakce textu: Extrahujte textový obsah z dokumentů PDF včetně informací o rozvržení a formátování, jako je barva textu, písmo a umístění atd.
- Extrakce informací o písmech: Extrahuje informace o písmech použitých v dokumentech PDF.
Začínáme s pdfminer.six
K instalaci a používání pypdf potřebujete Python verze 3.6.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte pypdf do svého počítače pomocí pip a virtuální prostředí.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Operační Systém Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extrahujte text z dokumentu PDF
Knihovnu pdfminer.six v Pythonu můžete použít k extrahování textu z dokumentu PDF pomocí funkce extract_text, jak je znázorněno na níže uvedeném úryvku kódu:
Výstup
Následující snímek obrazovky ukazuje text extrahovaný z dokumentu PDF:
Extrahujte informace o písmu z dokumentu PDF
Můžeme také extrahovat informace o písmech použitých v dokumentu PDF, jako je název písma a velikost písma, procházením prvků rozvržení každé stránky v PDF. Zkontrolujte například níže uvedený fragment kódu:
Výstup
Následující snímek obrazovky ukazuje informace o písmu extrahované z dokumentu PDF:
Závěr
Závěrem lze říci, že pdfminer.six má schopnosti extrahovat text a další informace z dokumentů PDF, ale chybí mu funkce, jako je extrahování obrázků a tabulek z PDF.
Je důležité poznamenat, že knihovna pdfminer.six podporuje extrahování stránek PDF jako obrázků, ale liší se od extrahování obrázků vložených do dokumentů PDF, které pdfminer.six nepodporuje. Vývojáři se však na něj mohou stále spolehnout při analýze PDF v Pythonu, aby extrahovali text pro potřeby analýzy dat.