Atvirojo kodo Python PDF analizavimo biblioteka
Nemokama ir atvirojo kodo Python biblioteka, skirta analizuoti PDF failus ir išgauti tekstą su formatavimo informacija.
Kas yra pdfminer.six?
Pdfminer.six yra atvirojo kodo Python biblioteka ir įrankių rinkinys, skirtas duomenims iš PDF dokumentų išgauti. Galite išanalizuoti PDF dokumentus ir iš PDF failų išgauti tekstą, turinį ir pažymėtą turinį ir tt duomenų analizei.
Štai trumpas jo analizavimo funkcijų sąrašas:
- Teksto ištraukimas: ištraukite teksto turinį iš PDF dokumentų, įskaitant išdėstymo ir formatavimo informaciją, pvz., teksto spalvą, šriftą, vietą ir kt.
- Šrifto informacijos ištraukimas: ištraukite informaciją apie PDF dokumentuose naudojamus šriftus.
Darbo su pdfminer.six pradžia
Norint įdiegti ir naudoti pypdf, reikia 3.6.0 ar naujesnės Python versijos. Taigi pirmiausia įdiekite Python, o tada naudokite toliau pateiktas komandas, kad įdiegtumėte pypdf savo kompiuteryje naudodami pip ir virtuali aplinka.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Ištraukite tekstą iš PDF dokumento
Galite naudoti Python biblioteką pdfminer.six, kad ištrauktumėte tekstą iš PDF dokumento naudodami funkciją extract_text, kaip parodyta toliau pateiktame kodo fragmente:
Šioje ekrano kopijoje rodomas tekstas, ištrauktas iš PDF dokumento:
Ištraukite šrifto informaciją iš PDF dokumento
Taip pat galime išgauti informaciją apie PDF dokumente naudojamus šriftus, pvz., šrifto pavadinimą ir šrifto dydį, kartodami kiekvieno PDF puslapio išdėstymo elementus. Pavyzdžiui, patikrinkite toliau pateiktą kodo fragmentą:
Šioje ekrano kopijoje rodoma šrifto informacija, ištraukta iš PDF dokumento:
Išvada
Apibendrinant galima pasakyti, kad pdfminer.six gali išgauti tekstą ir kitą informaciją iš PDF dokumentų, tačiau jai trūksta funkcijų, tokių kaip vaizdų ir lentelių ištraukimas iš PDF failų.
Svarbu pažymėti, kad pdfminer.six biblioteka palaiko PDF puslapių ištraukimą kaip vaizdus, tačiau tai skiriasi nuo vaizdų, įterptų į PDF dokumentus, ištraukimo, kurių nepalaiko pdfminer.six. Tačiau kūrėjai vis tiek gali juo pasikliauti analizuodami PDF failus „Python“, kad išgautų tekstą savo duomenų analizės poreikiams.