Open Source Python PDF Parser Library

Vyzkoušejte tuto bezplatnou a otevřenou knihovnu Source Python pro analýzu, čtení a extrahování textu, obrázků, tabulek a dalšího obsahu z dokumentů PDF.

Co je PyMuPDF?

PyMuPDF, také známý jako Fitz, je open-source knihovna Pythonu, která poskytuje komplexní sadu nástrojů pro práci se soubory PDF. S PyMuPDF mohou uživatelé efektivně provádět úkoly, jako je otevírání souborů PDF, extrahování textu, obrázků a tabulek, manipulace s vlastnostmi stránky, jako je otáčení a oříznutí, vytváření nových dokumentů PDF a převod stránek PDF na obrázky.

PyMuPDF podporuje několik funkcí, které jsou uvedeny níže:

  • Čtení dokumentů PDF: PyMuPDF může otevírat a číst dokumenty PDF, což vám umožňuje přistupovat k textu, obrázkům a dalšímu obsahu v nich.
  • Extrakce textu: Z dokumentů PDF můžete extrahovat text, včetně obsahu textu, písem a informací o rozložení.
  • Extrakce obrázků: Z dokumentů PDF můžete extrahovat obrázky v různých formátech, jako je JPEG nebo PNG.
  • Extrakce tabulek: Tabulky můžete také extrahovat z dokumentů PDF.

V této recenzi se zaměříme především na funkce extrakce a analýzy knihovny. Chcete-li hloubkové hodnocení funkcí dělení, slučování a správy stránek, klikněte sem.

GitHub

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Začínáme s PyMuPDF

K instalaci a používání PyMuPDF potřebujete Python verze 3.8.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte PyMuPDF na váš počítač pomocí pip a virtuální prostředí.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Operační Systém Mac


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Okna


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Extrahujte text z PDF

Knihovnu PyMuPDF v Pythonu můžete použít k extrahování textu z dokumentu PDF a provádění textové analýzy, jako je počítání slov, pouze pomocí funkcí poskytovaných v knihovně, jak je znázorněno v kódu níže:

Výstup

Obrázek níže ukazuje extrahovaný text a počet slov v souboru PDF:

Extrahujte obrázky z PDF

K extrahování obrázků z PDF dokumentu v Pythonu můžeme použít knihovnu PyMuPDF. Níže uvedený fragment kódu otevře zadaný soubor PDF, extrahuje obrázky z PDF a uloží je do aktuálního pracovního adresáře:

Výstup

Následuje obrázek PNG extrahovaný z dokumentu PDF

Extrahujte tabulky z PDF

Knihovnu PyMuPDF můžeme použít i ke zpracování PDF dokumentu a extrahování tabulek z něj. Zkontrolujte níže uvedený fragment kódu, který otevře zadaný soubor PDF a extrahuje tabulky z dokumentu PDF:

Výstup

Níže uvedený snímek obrazovky ukazuje tabulku extrahovanou z dokumentu PDF:

Vložit text do PDF

Níže uvedený úryvek kódu Python ukazuje použití knihovny PyMuPDF pro vkládání textu do souboru PDF a ukládání upraveného PDF jako text.pdf:

Výstup

Text vložený pomocí výše uvedeného kódu je zvýrazněn v červeném poli níže:

Rozpoznávání textu PDF pomocí OCR s PyMuPDF

We will perform OCR on the PDF file containing the following image:

Výstup

Obrázek níže ukazuje text extrahovaný z obrázku v poskytnutém souboru PDF:

Závěr

Stručně řečeno, PyMuPDF je profesionální nástroj s některými jasnými silnými a slabými stránkami. Je skvělý pro úkoly, jako je OCR a extrakce textu, díky čemuž je cenný pro práci s textem v PDF.

Není to však tak dobré při extrahování tabulek z PDF, zvláště když mají PDF složitou strukturu nebo větší počet stránek, což může být pro některé uživatele nevýhoda. V určitých situacích může také vyžadovat další knihovny, jako jsou datové soubory jazyka OCR Pandas a Tesseract, což zvyšuje složitost jeho použití. Navzdory těmto omezením zůstává PyMuPDF robustní volbou pro práci s textem v PDF.

Podobné Produkty

 Czech