Nyílt forráskódú Python PDF-elemző könyvtár

Próbálja ki ezt az ingyenes és nyílt forráskódú Python-könyvtárat szövegek, képek, táblázatok és egyéb tartalmak elemzéséhez, olvasásához és kinyeréséhez PDF-dokumentumokból.

Mi az a PyMuPDF?

A PyMuPDF, más néven Fitz, egy nyílt forráskódú Python-könyvtár, amely átfogó eszközkészletet biztosít a PDF-fájlokkal való munkavégzéshez. A PyMuPDF segítségével a felhasználók hatékonyan hajthatnak végre olyan feladatokat, mint például a PDF-ek megnyitása, szövegek, képek és táblázatok kibontása, az oldaltulajdonságok, például az elforgatás és a vágás, az új PDF-dokumentumok létrehozása és a PDF-oldalak képekké alakítása.

A PyMuPDF számos funkciót támogat, amelyek az alábbiakban találhatók:

PDF dokumentumok olvasása: A PyMuPDF képes megnyitni és olvasni PDF dokumentumokat, lehetővé téve a bennük lévő szövegek, képek és egyéb tartalom elérését.
Szövegkivonás: PDF-dokumentumokból szöveget bonthat ki, beleértve a szövegtartalmat, a betűtípusokat és az elrendezési információkat.
Képkivonás: Különféle formátumú, például JPEG vagy PNG formátumú PDF-dokumentumokból kinyerhet képeket.
Táblázat kibontása: A táblázatokat PDF-dokumentumokból is kivonhatja.

Ebben az áttekintésben elsősorban a könyvtár kinyerési és elemzési funkcióira összpontosítunk. A felosztási, egyesítési és oldalkezelési funkciók mélyreható értékeléséhez kérjük, kattintson ide.

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

A PyMuPDF használatának első lépései

A PyMuPDF telepítéséhez és használatához a Python 3.8.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a PyMuPDF-et a gépére a pip és virtuális környezet a>.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Szöveg kibontása PDF-ből

Használhatja a PyMuPDF könyvtárat a Pythonban, hogy szöveget kinyerjen egy PDF-dokumentumból, és szövegelemzést végezzen, például szavakat számoljon, pusztán a könyvtárban biztosított funkciók használatával, az alábbi kódban látható módon:

Kimenet

Az alábbi képen látható a kivont szöveg és a szavak száma a PDF-fájlban:

Képek kibontása PDF-ből

A PyMuPDF könyvtárat használhatjuk képek kinyerésére egy PDF dokumentumból Pythonban. Az alábbi kódrészlet megnyitja a megadott PDF-fájlt, kivonja a képeket a PDF-ből, és elmenti őket az aktuális munkakönyvtárba:

Kimenet

Az alábbiakban a PDF-dokumentumból kivont PNG-kép látható

Táblázatok kibontása PDF-ből

A PyMuPDF könyvtárat is használhatjuk PDF-dokumentumok feldolgozására és táblázatok kinyerésére. Ellenőrizze az alábbi kódrészletet, amely megnyitja a megadott PDF-fájlt, és kivonja a táblázatokat a PDF-dokumentumból:

Kimenet

Az alábbi képernyőképen a PDF dokumentumból kivont táblázat látható:

Szöveg beszúrása PDF-be

Az alábbi Python kódrészlet bemutatja a PyMuPDF könyvtár használatát szöveg PDF-fájlba való beszúrására és a módosított PDF text.pdf formátumban történő mentésére:

Kimenet

A fenti kóddal beszúrt szöveg az alábbi piros mezőben van kiemelve:

PDF szövegfelismerés OCR használatával PyMuPDF-fel

We will perform OCR on the PDF file containing the following image:

Kimenet

Az alábbi képen a mellékelt PDF-fájlban található képből kivont szöveg látható:

Következtetés

Összefoglalva, a PyMuPDF egy professzionális eszköz, amely határozott erősségekkel és gyengeségekkel rendelkezik. Kiválóan alkalmas olyan feladatokhoz, mint az OCR és a szövegkivonás, ami értékessé teszi a PDF-fájlok szövegének kezelését.

Azonban nem olyan jó a táblázatok kinyerése a PDF-ekből, különösen akkor, ha a PDF-ek összetett szerkezetűek vagy több oldalt tartalmaznak, ami egyes felhasználók számára hátrányt jelenthet. Ezenkívül bizonyos helyzetekben további könyvtárakra is szükség lehet, például Pandas és Tesseract OCR nyelvi adatfájlokra, ami bonyolultabbá teszi a használatát. E korlátozások ellenére a PyMuPDF továbbra is robusztus választás a PDF-fájlok szövegével való munkavégzéshez.

Nyílt forráskódú Python PDF-elemző könyvtár

Próbálja ki ezt az ingyenes és nyílt forráskódú Python-könyvtárat szövegek, képek, táblázatok és egyéb tartalmak elemzéséhez, olvasásához és kinyeréséhez PDF-dokumentumokból.

Mi az a PyMuPDF?

GitHub statisztika

A PyMuPDF használatának első lépései

Linux

MacOS

Windows

Szöveg kibontása PDF-ből

Kimenet

Képek kibontása PDF-ből

Kimenet

Táblázatok kibontása PDF-ből

Kimenet

Szöveg beszúrása PDF-be

Kimenet

PDF szövegfelismerés OCR használatával PyMuPDF-fel

Kimenet

Következtetés

Hasonló Termékek