Atvirojo kodo Python PDF analizavimo biblioteka

Išnagrinėkite PDF ir iš PDF dokumentų ištraukite tekstą, vaizdus ir priedus naudodami nemokamą Python biblioteką.

Kas yra pypdf?

Pypdf yra vertinga atvirojo kodo Python biblioteka, žinoma dėl savo įgūdžių atliekant įvairias PDF operacijas. Ši biblioteka gali atlikti daugybę užduočių ir operacijų, susijusių su PDF failais, tačiau šiame puslapyje mes sutelksime dėmesį tik į jos PDF analizavimo funkcijas.

Svarbios pypdf analizės funkcijos apima:

PDF failų skaitymas: „Pypdf“ leidžia atidaryti ir skaityti / analizuoti PDF failus, todėl iš esamų PDF dokumentų lengva išgauti tekstą ir kitus duomenis.
Turinio ištraukimas: galite išanalizuoti ir ištraukti tekstą, vaizdus ir priedus iš PDF dokumentų pagal savo reikalavimus.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darbo pradžia su pypdf

Norint įdiegti ir naudoti pypdf, reikia 3.6.0 ar naujesnės Python versijos. Taigi pirmiausia įdiekite Python, o tada naudokite toliau pateiktas komandas, kad įdiegtumėte pypdf savo kompiuteryje naudodami pip ir virtuali aplinka a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Ištraukite tekstą iš PDF

Please check below code snippet for example:

Žemiau esančiame paveikslėlyje parodytas iš PDF failo ištrauktas tekstas

Ištraukite vaizdus iš PDF

Norėdami išgauti vaizdus iš PDF dokumento, galime naudoti pypdf biblioteką. Norint išgauti vaizdus, reikia papildomos bibliotekos, pavadintos pagalvė. Jis kartoja kiekvieną puslapį, identifikuoja vaizdus ir išsaugo juos kaip atskirus vaizdo failus, išsaugodamas jų pradinius pavadinimus. Pavyzdžiui, patikrinkite toliau pateiktą kodo fragmentą:

Tekstas, įterptas naudojant aukščiau pateiktą kodą, yra paryškintas toliau pateiktame raudoname langelyje

Ištraukite priedus iš PDF

pypdf biblioteka leidžia išgauti ir išsaugoti priedus iš PDF dokumento. Jis kartojasi per priedus ir jų turinį ir išsaugo juos atskiruose failuose. Pavyzdžiui, patikrinkite toliau pateiktą kodo fragmentą:

Išvada

Apibendrinant galima pasakyti, kad pypdf išsiskiria kaip universali Python biblioteka, skirta funkcijoms iš PDF dokumentų išgauti. Jis siūlo patikimas galimybes analizuoti tekstą, vaizdus ir priedus, todėl tai yra vertingas įrankis duomenims išgauti, analizuoti ir valdyti dokumentus.

Tačiau svarbu pažymėti, kad pypdf kartais gali sukelti problemų ištraukiant tekstą, pvz., papildomų tarpų tarp žodžių ir simbolių, kurie gali turėti įtakos išgaunamo turinio tikslumui. Nepaisant šio apribojimo, pypdf išlieka vertingu turtu analizuojant PDF failus, ypač tais atvejais, kai tikslus teksto formatavimas nėra pagrindinis rūpestis.