1. produkty
  2.   Analyzátor
  3.   Python
  4.   pdfminer.six
 
  

Open Source Python PDF Parser Library

Bezplatná a otevřená knihovna Pythonu pro analýzu souborů PDF a extrahování textu s informacemi o formátování.

Co je pdfminer.six?

Pdfminer.six je open source knihovna Pythonu a sada nástrojů pro extrahování dat z dokumentů PDF. Můžete analyzovat dokumenty PDF a extrahovat text, obsah a označený obsah atd. z PDF pro analýzu dat.

Zde je stručný seznam funkcí analýzy:

  • Extrakce textu: Extrahujte textový obsah z dokumentů PDF včetně informací o rozvržení a formátování, jako je barva textu, písmo a umístění atd.
  • Extrakce informací o písmech: Extrahuje informace o písmech použitých v dokumentech PDF.
GitHub

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Začínáme s pdfminer.six

K instalaci a používání pypdf potřebujete Python verze 3.6.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte pypdf do svého počítače pomocí pip a virtuální prostředí.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Operační Systém Mac


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Okna


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extrahujte text z dokumentu PDF

Knihovnu pdfminer.six v Pythonu můžete použít k extrahování textu z dokumentu PDF pomocí funkce extract_text, jak je znázorněno na níže uvedeném úryvku kódu:

Výstup

Následující snímek obrazovky ukazuje text extrahovaný z dokumentu PDF:

Extrahujte informace o písmu z dokumentu PDF

Můžeme také extrahovat informace o písmech použitých v dokumentu PDF, jako je název písma a velikost písma, procházením prvků rozvržení každé stránky v PDF. Zkontrolujte například níže uvedený fragment kódu:

Výstup

Následující snímek obrazovky ukazuje informace o písmu extrahované z dokumentu PDF:

Závěr

Závěrem lze říci, že pdfminer.six má schopnosti extrahovat text a další informace z dokumentů PDF, ale chybí mu funkce, jako je extrahování obrázků a tabulek z PDF.

Je důležité poznamenat, že knihovna pdfminer.six podporuje extrahování stránek PDF jako obrázků, ale liší se od extrahování obrázků vložených do dokumentů PDF, které pdfminer.six nepodporuje. Vývojáři se však na něj mohou stále spolehnout při analýze PDF v Pythonu, aby extrahovali text pro potřeby analýzy dat.

Podobné Produkty

 Czech