1. Termékek
  2.   Elemző
  3.   Python
  4.   pdfminer.six
 
  

Nyílt forráskódú Python PDF-elemző könyvtár

Ingyenes és nyílt forráskódú Python-könyvtár PDF-ek elemzéséhez és szövegek formázási információkkal történő kivonásához.

Mi az a pdfminer.six?

A Pdfminer.six egy nyílt forráskódú Python könyvtár és eszközkészlet adatok PDF dokumentumokból való kinyerésére. Elemezheti a PDF dokumentumokat, és kivonhat szövegeket, tartalomjegyzékeket és címkézett tartalmakat stb. a PDF-ekből adatelemzés céljából.

Íme egy rövid lista az elemzési funkcióiról:

  • Szöveg kinyerése: Szöveges tartalom kinyerése PDF-dokumentumokból, beleértve az elrendezési és formázási információkat, például a szöveg színét, betűtípusát és helyét stb.
  • Betűtípus-információk kinyerése: Információ kinyerése a PDF-dokumentumokban használt betűtípusokról.
GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

A pdfminer.six használatának megkezdése

A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf-et a gépére a pip és virtuális környezet.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac operációs rendszer


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ablakok


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Szöveg kibontása a PDF-dokumentumból

Használhatja a Python pdfminer.six könyvtárát, hogy szöveget vonjon ki egy PDF-dokumentumból az extract_text függvény használatával, ahogy az az alábbi kódrészletben látható:

A következő képernyőképen a PDF-dokumentumból kivont szöveg látható:

Betűtípusinformációk kibontása PDF-dokumentumból

A PDF-dokumentumban használt betűtípusokkal kapcsolatos információkat, például a betűtípus nevét és a betűméretet is kinyerhetjük a PDF-fájl egyes oldalainak elrendezési elemeinek iterációjával. Például ellenőrizze az alábbi kódrészletet:

A következő képernyőkép a PDF-dokumentumból kinyert betűtípus-információkat mutatja:

Következtetés

Összefoglalva, a pdfminer.six képes szöveget és egyéb információkat kinyerni PDF-dokumentumokból, de hiányoznak az olyan funkciók, mint a képek és táblázatok kinyerése a PDF-ekből.

Fontos megjegyezni, hogy a pdfminer.six könyvtár támogatja a PDF-oldalak képként való kibontását, de ez különbözik a PDF-dokumentumokba ágyazott képek kibontásától, amelyet a pdfminer.six nem támogat. A fejlesztők azonban továbbra is támaszkodhatnak rá a PDF-ek Pythonban történő elemzésekor, hogy adatelemzési igényeiknek megfelelő szöveget bontsanak ki.

Hasonló Termékek

 Hungarian