Atvirojo kodo Python PDF analizavimo biblioteka

Išbandykite šią nemokamą atvirojo šaltinio Python biblioteką, kad galėtumėte analizuoti, skaityti ir ištraukti tekstą, vaizdus, lenteles ir kitą turinį iš PDF dokumentų.

Kas yra PyMuPDF?

PyMuPDF, taip pat žinomas kaip Fitz, yra atvirojo kodo Python biblioteka, kurioje pateikiamas išsamus įrankių rinkinys darbui su PDF failais. Naudodami PyMuPDF, vartotojai gali efektyviai atlikti tokias užduotis kaip atidaryti PDF failus, išgauti tekstą, vaizdus ir lenteles, manipuliuoti puslapio ypatybėmis, pvz., pasukti ir apkarpyti, kurti naujus PDF dokumentus ir konvertuoti PDF puslapius į vaizdus.

PyMuPDF palaiko keletą funkcijų, kurios išvardytos toliau:

PDF dokumentų skaitymas: PyMuPDF gali atidaryti ir skaityti PDF dokumentus, todėl galite pasiekti juose esantį tekstą, vaizdus ir kitą turinį.
Teksto ištraukimas: galite išgauti tekstą iš PDF dokumentų, įskaitant teksto turinį, šriftus ir išdėstymo informaciją.
Vaizdo ištraukimas: galite išgauti vaizdus iš PDF dokumentų įvairiais formatais, pvz., JPEG arba PNG.
Lentelių ištraukimas: taip pat galite ištraukti lenteles iš PDF dokumentų.

Šioje apžvalgoje pagrindinis dėmesys bus skiriamas bibliotekos ištraukimo ir analizavimo funkcijoms. Jei norite nuodugniai įvertinti skaidymo, sujungimo ir puslapių tvarkymo funkcijas, spustelėkite čia.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darbo su PyMuPDF pradžia

Norint įdiegti ir naudoti PyMuPDF, reikalinga 3.8.0 ar naujesnė Python versija. Taigi pirmiausia įdiekite Python, tada naudokite toliau pateiktas komandas, kad įdiegtumėte PyMuPDF savo kompiuteryje naudodami pip ir virtuali aplinka.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Ištraukite tekstą iš PDF

Galite naudoti PyMuPDF biblioteką Python, norėdami ištraukti tekstą iš PDF dokumento ir atlikti teksto analizę, pvz., skaičiuoti žodžius, tiesiog naudodami bibliotekoje pateiktas funkcijas, kaip parodyta toliau pateiktame kode:

Žemiau esančiame paveikslėlyje parodytas ištrauktas tekstas ir žodžių skaičius PDF faile:

Ištraukite vaizdus iš PDF

Galime naudoti PyMuPDF biblioteką, norėdami išgauti vaizdus iš PDF dokumento Python. Žemiau esantis kodo fragmentas atidaro nurodytą PDF failą, ištraukia vaizdus iš PDF ir išsaugo juos esamame darbo kataloge:

Toliau pateikiamas PNG vaizdas, ištrauktas iš PDF dokumento

Ištraukite lenteles iš pdf

Taip pat galime naudoti PyMuPDF biblioteką PDF dokumentui apdoroti ir iš jo išgauti lenteles. Patikrinkite toliau pateiktą kodo fragmentą, kuris atidaro nurodytą PDF failą ir iš PDF dokumento ištraukia lenteles:

Žemiau esančioje ekrano kopijoje parodyta lentelė, ištraukta iš PDF dokumento:

Įterpti tekstą į PDF

Toliau Python kodo fragmentas demonstruoja PyMuPDF bibliotekos naudojimą tekstui įterpti į PDF failą ir išsaugoti pakeistą PDF kaip text.pdf:

Tekstas, įterptas naudojant aukščiau pateiktą kodą, yra paryškintas toliau pateiktame raudoname langelyje:

PDF teksto atpažinimas naudojant OCR su PyMuPDF

We will perform OCR on the PDF file containing the following image:

Žemiau esančiame paveikslėlyje parodytas tekstas, ištrauktas iš pateikto PDF failo vaizdo:

Išvada

Apibendrinant galima pasakyti, kad „PyMuPDF“ yra profesionalus įrankis, turintis aiškių privalumų ir trūkumų. Puikiai tinka atliekant tokias užduotis kaip OCR ir teksto ištraukimas, todėl naudinga tvarkyti tekstą PDF failuose.

Tačiau ne taip gerai išgauti lenteles iš PDF, ypač kai PDF failai turi sudėtingą struktūrą arba daugiau puslapių, o tai gali būti trūkumas kai kuriems vartotojams. Be to, tam tikromis situacijomis gali prireikti papildomų bibliotekų, pvz., Pandas ir Tesseract OCR kalbos duomenų failų, todėl jos naudojimas tampa sudėtingesnis. Nepaisant šių apribojimų, PyMuPDF išlieka tvirtas pasirinkimas dirbant su tekstu PDF failuose.