Nyílt forráskódú Python PDF-elemző könyvtár

Elemezze a PDF-et, és bontsa ki a PDF-dokumentumokból szöveget, képeket és mellékleteket az ingyenes Python-könyvtár segítségével.

Mi az a pypdf?

A Pypdf egy értékes nyílt forráskódú Python-könyvtár, amely a különféle PDF-műveletekben való jártasságáról ismert. Ez a könyvtár számos, PDF fájlokkal kapcsolatos feladatot és műveletet tud kezelni, azonban ezen az oldalon csak a PDF-elemző funkcióira koncentrálunk.

A pypdf figyelemre méltó elemzési funkciói a következők:

  • PDF-fájlok olvasása: A Pypdf lehetővé teszi a PDF-fájlok megnyitását és olvasását/elemzését, megkönnyítve a szövegek és egyéb adatok kinyerését a meglévő PDF-dokumentumokból.
  • Tartalom kinyerése: Igény szerint elemezhet és bonthat ki szövegeket, képeket és mellékleteket PDF-dokumentumokból.
GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

Ismerkedés a pypdf-vel

A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf-et a gépére a pip és virtuális környezet.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Mac operációs rendszer


python -m venv venv
source venv/bin/activate
pip install pypdf

ablakok


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Szöveg kibontása PDF-ből

Please check below code snippet for example:

Az alábbi képen a PDF-fájlból kivont szöveg látható

Képek kibontása PDF-ből

A pypdf könyvtár segítségével képeket kinyerhetünk PDF dokumentumból. A képek kinyeréséhez egy további, párna nevű könyvtárra van szükség. Az egyes oldalakon áthalad, azonosítja a képeket, és külön képfájlként menti őket, megőrizve eredeti nevüket. Kérjük, ellenőrizze az alábbi kódrészletet például:

A fenti kóddal beszúrt szöveg az alábbi piros mezőben van kiemelve

Kivonja a mellékleteket PDF-ből

pypdf könyvtár lehetővé teszi a mellékletek kinyerését és mentését egy PDF dokumentumból. Iterál a mellékleteken és azok tartalmán, és külön fájlokban menti őket. Kérjük, ellenőrizze az alábbi kódrészletet például:

Következtetés

Összefoglalva, a pypdf sokoldalú Python-könyvtárként tűnik ki a PDF-dokumentumok szolgáltatásainak kinyerésére. Robusztus képességeket kínál szövegek, képek és mellékletek elemzéséhez, így értékes eszköz az adatkinyeréshez, elemzéshez és dokumentumkezeléshez.

Fontos azonban megjegyezni, hogy a pypdf időnként problémákat okozhat a szöveg kibontása során, például extra szóközöket a szavak és karakterek között, ami befolyásolhatja a kivonatolt tartalom pontosságát. E korlátozás ellenére a pypdf továbbra is értékes eszköz a PDF-fájlok elemzéséhez, különösen olyan esetekben, amikor nem a szöveg pontos formázása az elsődleges szempont.

Hasonló Termékek

 Hungarian