Atvirojo kodo Python PDF analizavimo biblioteka
Išbandykite šią nemokamą atvirojo šaltinio Python biblioteką, kad galėtumėte analizuoti, skaityti ir ištraukti tekstą, vaizdus, lenteles ir kitą turinį iš PDF dokumentų.
Kas yra PyMuPDF?
PyMuPDF, taip pat žinomas kaip Fitz, yra atvirojo kodo Python biblioteka, kurioje pateikiamas išsamus įrankių rinkinys darbui su PDF failais. Naudodami PyMuPDF, vartotojai gali efektyviai atlikti tokias užduotis kaip atidaryti PDF failus, išgauti tekstą, vaizdus ir lenteles, manipuliuoti puslapio ypatybėmis, pvz., pasukti ir apkarpyti, kurti naujus PDF dokumentus ir konvertuoti PDF puslapius į vaizdus.
PyMuPDF palaiko keletą funkcijų, kurios išvardytos toliau:
- PDF dokumentų skaitymas: PyMuPDF gali atidaryti ir skaityti PDF dokumentus, todėl galite pasiekti juose esantį tekstą, vaizdus ir kitą turinį.
- Teksto ištraukimas: galite išgauti tekstą iš PDF dokumentų, įskaitant teksto turinį, šriftus ir išdėstymo informaciją.
- Vaizdo ištraukimas: galite išgauti vaizdus iš PDF dokumentų įvairiais formatais, pvz., JPEG arba PNG.
- Lentelių ištraukimas: taip pat galite ištraukti lenteles iš PDF dokumentų.
Šioje apžvalgoje pagrindinis dėmesys bus skiriamas bibliotekos ištraukimo ir analizavimo funkcijoms. Jei norite nuodugniai įvertinti skaidymo, sujungimo ir puslapių tvarkymo funkcijas, spustelėkite čia.
Darbo su PyMuPDF pradžia
Norint įdiegti ir naudoti PyMuPDF, reikalinga 3.8.0 ar naujesnė Python versija. Taigi pirmiausia įdiekite Python, tada naudokite toliau pateiktas komandas, kad įdiegtumėte PyMuPDF savo kompiuteryje naudodami pip ir virtuali aplinka.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Ištraukite tekstą iš PDF
Galite naudoti PyMuPDF biblioteką Python, norėdami ištraukti tekstą iš PDF dokumento ir atlikti teksto analizę, pvz., skaičiuoti žodžius, tiesiog naudodami bibliotekoje pateiktas funkcijas, kaip parodyta toliau pateiktame kode:
Žemiau esančiame paveikslėlyje parodytas ištrauktas tekstas ir žodžių skaičius PDF faile:
Ištraukite vaizdus iš PDF
Galime naudoti PyMuPDF biblioteką, norėdami išgauti vaizdus iš PDF dokumento Python. Žemiau esantis kodo fragmentas atidaro nurodytą PDF failą, ištraukia vaizdus iš PDF ir išsaugo juos esamame darbo kataloge:
Toliau pateikiamas PNG vaizdas, ištrauktas iš PDF dokumento
Ištraukite lenteles iš pdf
Taip pat galime naudoti PyMuPDF biblioteką PDF dokumentui apdoroti ir iš jo išgauti lenteles. Patikrinkite toliau pateiktą kodo fragmentą, kuris atidaro nurodytą PDF failą ir iš PDF dokumento ištraukia lenteles:
Žemiau esančioje ekrano kopijoje parodyta lentelė, ištraukta iš PDF dokumento:
Įterpti tekstą į PDF
Toliau Python kodo fragmentas demonstruoja PyMuPDF bibliotekos naudojimą tekstui įterpti į PDF failą ir išsaugoti pakeistą PDF kaip text.pdf:
Tekstas, įterptas naudojant aukščiau pateiktą kodą, yra paryškintas toliau pateiktame raudoname langelyje:
PDF teksto atpažinimas naudojant OCR su PyMuPDF
We will perform OCR on the PDF file containing the following image:Žemiau esančiame paveikslėlyje parodytas tekstas, ištrauktas iš pateikto PDF failo vaizdo:
Išvada
Apibendrinant galima pasakyti, kad „PyMuPDF“ yra profesionalus įrankis, turintis aiškių privalumų ir trūkumų. Puikiai tinka atliekant tokias užduotis kaip OCR ir teksto ištraukimas, todėl naudinga tvarkyti tekstą PDF failuose.
Tačiau ne taip gerai išgauti lenteles iš PDF, ypač kai PDF failai turi sudėtingą struktūrą arba daugiau puslapių, o tai gali būti trūkumas kai kuriems vartotojams. Be to, tam tikromis situacijomis gali prireikti papildomų bibliotekų, pvz., Pandas ir Tesseract OCR kalbos duomenų failų, todėl jos naudojimas tampa sudėtingesnis. Nepaisant šių apribojimų, PyMuPDF išlieka tvirtas pasirinkimas dirbant su tekstu PDF failuose.