Atvirojo kodo Python PDF analizavimo biblioteka

Nemokama ir atvirojo kodo Python biblioteka, skirta analizuoti PDF failus ir išgauti tekstą su formatavimo informacija.

Kas yra pdfminer.six?

Pdfminer.six yra atvirojo kodo Python biblioteka ir įrankių rinkinys, skirtas duomenims iš PDF dokumentų išgauti. Galite išanalizuoti PDF dokumentus ir iš PDF failų išgauti tekstą, turinį ir pažymėtą turinį ir tt duomenų analizei.

Štai trumpas jo analizavimo funkcijų sąrašas:

Teksto ištraukimas: ištraukite teksto turinį iš PDF dokumentų, įskaitant išdėstymo ir formatavimo informaciją, pvz., teksto spalvą, šriftą, vietą ir kt.
Šrifto informacijos ištraukimas: ištraukite informaciją apie PDF dokumentuose naudojamus šriftus.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darbo su pdfminer.six pradžia

Norint įdiegti ir naudoti pypdf, reikia 3.6.0 ar naujesnės Python versijos. Taigi pirmiausia įdiekite Python, o tada naudokite toliau pateiktas komandas, kad įdiegtumėte pypdf savo kompiuteryje naudodami pip ir virtuali aplinka.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Ištraukite tekstą iš PDF dokumento

Galite naudoti Python biblioteką pdfminer.six, kad ištrauktumėte tekstą iš PDF dokumento naudodami funkciją extract_text, kaip parodyta toliau pateiktame kodo fragmente:

Šioje ekrano kopijoje rodomas tekstas, ištrauktas iš PDF dokumento:

Ištraukite šrifto informaciją iš PDF dokumento

Taip pat galime išgauti informaciją apie PDF dokumente naudojamus šriftus, pvz., šrifto pavadinimą ir šrifto dydį, kartodami kiekvieno PDF puslapio išdėstymo elementus. Pavyzdžiui, patikrinkite toliau pateiktą kodo fragmentą:

Šioje ekrano kopijoje rodoma šrifto informacija, ištraukta iš PDF dokumento:

Išvada

Apibendrinant galima pasakyti, kad pdfminer.six gali išgauti tekstą ir kitą informaciją iš PDF dokumentų, tačiau jai trūksta funkcijų, tokių kaip vaizdų ir lentelių ištraukimas iš PDF failų.

Svarbu pažymėti, kad pdfminer.six biblioteka palaiko PDF puslapių ištraukimą kaip vaizdus, tačiau tai skiriasi nuo vaizdų, įterptų į PDF dokumentus, ištraukimo, kurių nepalaiko pdfminer.six. Tačiau kūrėjai vis tiek gali juo pasikliauti analizuodami PDF failus „Python“, kad išgautų tekstą savo duomenų analizės poreikiams.