Nyílt forráskódú Python PDF-elemző könyvtár
Ingyenes és nyílt forráskódú Python-könyvtár PDF-ek elemzéséhez és szövegek formázási információkkal történő kivonásához.
Mi az a pdfminer.six?
A Pdfminer.six egy nyílt forráskódú Python könyvtár és eszközkészlet adatok PDF dokumentumokból való kinyerésére. Elemezheti a PDF dokumentumokat, és kivonhat szövegeket, tartalomjegyzékeket és címkézett tartalmakat stb. a PDF-ekből adatelemzés céljából.
Íme egy rövid lista az elemzési funkcióiról:
- Szöveg kinyerése: Szöveges tartalom kinyerése PDF-dokumentumokból, beleértve az elrendezési és formázási információkat, például a szöveg színét, betűtípusát és helyét stb.
- Betűtípus-információk kinyerése: Információ kinyerése a PDF-dokumentumokban használt betűtípusokról.
A pdfminer.six használatának megkezdése
A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf-et a gépére a pip és virtuális környezet.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac operációs rendszer
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ablakok
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Szöveg kibontása a PDF-dokumentumból
Használhatja a Python pdfminer.six könyvtárát, hogy szöveget vonjon ki egy PDF-dokumentumból az extract_text függvény használatával, ahogy az az alábbi kódrészletben látható:
A következő képernyőképen a PDF-dokumentumból kivont szöveg látható:
Betűtípusinformációk kibontása PDF-dokumentumból
A PDF-dokumentumban használt betűtípusokkal kapcsolatos információkat, például a betűtípus nevét és a betűméretet is kinyerhetjük a PDF-fájl egyes oldalainak elrendezési elemeinek iterációjával. Például ellenőrizze az alábbi kódrészletet:
A következő képernyőkép a PDF-dokumentumból kinyert betűtípus-információkat mutatja:
Következtetés
Összefoglalva, a pdfminer.six képes szöveget és egyéb információkat kinyerni PDF-dokumentumokból, de hiányoznak az olyan funkciók, mint a képek és táblázatok kinyerése a PDF-ekből.
Fontos megjegyezni, hogy a pdfminer.six könyvtár támogatja a PDF-oldalak képként való kibontását, de ez különbözik a PDF-dokumentumokba ágyazott képek kibontásától, amelyet a pdfminer.six nem támogat. A fejlesztők azonban továbbra is támaszkodhatnak rá a PDF-ek Pythonban történő elemzésekor, hogy adatelemzési igényeiknek megfelelő szöveget bontsanak ki.