Open Source Python PDF Parser Library
Vyzkoušejte tuto bezplatnou a otevřenou knihovnu Source Python pro analýzu, čtení a extrahování textu, obrázků, tabulek a dalšího obsahu z dokumentů PDF.
Co je PyMuPDF?
PyMuPDF, také známý jako Fitz, je open-source knihovna Pythonu, která poskytuje komplexní sadu nástrojů pro práci se soubory PDF. S PyMuPDF mohou uživatelé efektivně provádět úkoly, jako je otevírání souborů PDF, extrahování textu, obrázků a tabulek, manipulace s vlastnostmi stránky, jako je otáčení a oříznutí, vytváření nových dokumentů PDF a převod stránek PDF na obrázky.
PyMuPDF podporuje několik funkcí, které jsou uvedeny níže:
- Čtení dokumentů PDF: PyMuPDF může otevírat a číst dokumenty PDF, což vám umožňuje přistupovat k textu, obrázkům a dalšímu obsahu v nich.
- Extrakce textu: Z dokumentů PDF můžete extrahovat text, včetně obsahu textu, písem a informací o rozložení.
- Extrakce obrázků: Z dokumentů PDF můžete extrahovat obrázky v různých formátech, jako je JPEG nebo PNG.
- Extrakce tabulek: Tabulky můžete také extrahovat z dokumentů PDF.
V této recenzi se zaměříme především na funkce extrakce a analýzy knihovny. Chcete-li hloubkové hodnocení funkcí dělení, slučování a správy stránek, klikněte sem.
Začínáme s PyMuPDF
K instalaci a používání PyMuPDF potřebujete Python verze 3.8.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte PyMuPDF na váš počítač pomocí pip a virtuální prostředí.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Operační Systém Mac
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Okna
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Extrahujte text z PDF
Knihovnu PyMuPDF v Pythonu můžete použít k extrahování textu z dokumentu PDF a provádění textové analýzy, jako je počítání slov, pouze pomocí funkcí poskytovaných v knihovně, jak je znázorněno v kódu níže:
Výstup
Obrázek níže ukazuje extrahovaný text a počet slov v souboru PDF:
Extrahujte obrázky z PDF
K extrahování obrázků z PDF dokumentu v Pythonu můžeme použít knihovnu PyMuPDF. Níže uvedený fragment kódu otevře zadaný soubor PDF, extrahuje obrázky z PDF a uloží je do aktuálního pracovního adresáře:
Výstup
Následuje obrázek PNG extrahovaný z dokumentu PDF
Extrahujte tabulky z PDF
Knihovnu PyMuPDF můžeme použít i ke zpracování PDF dokumentu a extrahování tabulek z něj. Zkontrolujte níže uvedený fragment kódu, který otevře zadaný soubor PDF a extrahuje tabulky z dokumentu PDF:
Výstup
Níže uvedený snímek obrazovky ukazuje tabulku extrahovanou z dokumentu PDF:
Vložit text do PDF
Níže uvedený úryvek kódu Python ukazuje použití knihovny PyMuPDF pro vkládání textu do souboru PDF a ukládání upraveného PDF jako text.pdf:
Výstup
Text vložený pomocí výše uvedeného kódu je zvýrazněn v červeném poli níže:
Rozpoznávání textu PDF pomocí OCR s PyMuPDF
We will perform OCR on the PDF file containing the following image:Výstup
Obrázek níže ukazuje text extrahovaný z obrázku v poskytnutém souboru PDF:
Závěr
Stručně řečeno, PyMuPDF je profesionální nástroj s některými jasnými silnými a slabými stránkami. Je skvělý pro úkoly, jako je OCR a extrakce textu, díky čemuž je cenný pro práci s textem v PDF.
Není to však tak dobré při extrahování tabulek z PDF, zvláště když mají PDF složitou strukturu nebo větší počet stránek, což může být pro některé uživatele nevýhoda. V určitých situacích může také vyžadovat další knihovny, jako jsou datové soubory jazyka OCR Pandas a Tesseract, což zvyšuje složitost jeho použití. Navzdory těmto omezením zůstává PyMuPDF robustní volbou pro práci s textem v PDF.