Nyílt forráskódú Python PDF-elemző könyvtár
Próbálja ki ezt az ingyenes és nyílt forráskódú Python-könyvtárat szövegek, képek, táblázatok és egyéb tartalmak elemzéséhez, olvasásához és kinyeréséhez PDF-dokumentumokból.
Mi az a PyMuPDF?
A PyMuPDF, más néven Fitz, egy nyílt forráskódú Python-könyvtár, amely átfogó eszközkészletet biztosít a PDF-fájlokkal való munkavégzéshez. A PyMuPDF segítségével a felhasználók hatékonyan hajthatnak végre olyan feladatokat, mint például a PDF-ek megnyitása, szövegek, képek és táblázatok kinyerése, az oldaltulajdonságok, például az elforgatás és a vágás, az új PDF-dokumentumok létrehozása és a PDF-oldalak képekké alakítása.
A PyMuPDF számos funkciót támogat, amelyek az alábbiakban találhatók:
- PDF dokumentumok olvasása: A PyMuPDF képes megnyitni és olvasni PDF dokumentumokat, lehetővé téve a bennük lévő szövegek, képek és egyéb tartalom elérését.
- Szövegkivonás: PDF-dokumentumokból szöveget bonthat ki, beleértve a szövegtartalmat, a betűtípusokat és az elrendezési információkat.
- Képkivonás: Különféle formátumú, például JPEG vagy PNG formátumú PDF-dokumentumokból kinyerhet képeket.
- Táblázat kibontása: A táblázatokat PDF-dokumentumokból is kivonhatja.
Ebben az áttekintésben elsősorban a könyvtár kinyerési és elemzési funkcióira összpontosítunk. A felosztási, egyesítési és oldalkezelési funkciók mélyreható értékeléséhez kérjük, kattintson ide.
A PyMuPDF használatának első lépései
A PyMuPDF telepítéséhez és használatához a Python 3.8.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a PyMuPDF-et a gépére a pip és virtuális környezet.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac operációs rendszer
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
ablakok
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Szöveg kibontása PDF-ből
A Python PyMuPDF könyvtárát használhatja szövegek kinyerésére egy PDF-dokumentumból, és szövegelemzést végezhet, például szavakat számlálhat, pusztán a könyvtárban biztosított funkciók használatával, az alábbi kódban látható módon:
Az alábbi képen látható a kivont szöveg és a szavak száma a PDF-fájlban:
Képek kibontása PDF-ből
A PyMuPDF könyvtárat használhatjuk képek kinyerésére egy PDF dokumentumból Pythonban. Az alábbi kódrészlet megnyitja a megadott PDF-fájlt, kivonja a képeket a PDF-ből, és elmenti őket az aktuális munkakönyvtárba:
Az alábbiakban a PDF-dokumentumból kivont PNG-kép látható
Táblázatok kibontása PDF-ből
A PyMuPDF könyvtárat is használhatjuk PDF-dokumentumok feldolgozására és táblázatok kinyerésére. Ellenőrizze az alábbi kódrészletet, amely megnyitja a megadott PDF-fájlt, és kivonja a táblázatokat a PDF-dokumentumból:
Az alábbi képernyőképen a PDF dokumentumból kivont táblázat látható:
Szöveg beszúrása PDF-be
Az alábbi Python kódrészlet bemutatja a PyMuPDF könyvtár használatát szöveg PDF-fájlba való beszúrására és a módosított PDF text.pdf formátumban történő mentésére:
A fenti kóddal beszúrt szöveg az alábbi piros mezőben van kiemelve:
PDF szövegfelismerés OCR használatával PyMuPDF-fel
We will perform OCR on the PDF file containing the following image:Az alábbi képen a mellékelt PDF-fájlban található képből kivont szöveg látható:
Következtetés
Összefoglalva, a PyMuPDF egy professzionális eszköz, amely határozott erősségekkel és gyengeségekkel rendelkezik. Kiválóan alkalmas olyan feladatokhoz, mint az OCR és a szövegkivonás, ami értékessé teszi a PDF-fájlok szövegének kezelését.
Azonban nem olyan jó a táblázatok kinyerése a PDF-ekből, különösen akkor, ha a PDF-ek összetett szerkezetűek vagy több oldalt tartalmaznak, ami egyes felhasználók számára hátrányt jelenthet. Ezenkívül bizonyos helyzetekben további könyvtárakra is szükség lehet, például Pandas és Tesseract OCR nyelvi adatfájlokra, ami bonyolultabbá teszi a használatát. E korlátozások ellenére a PyMuPDF továbbra is robusztus választás a PDF-fájlok szövegével való munkavégzéshez.