Atvērtā pirmkoda Python PDF parsētāja bibliotēka

Parsējiet PDF un izņemiet tekstu, attēlus un pielikumus no PDF dokumentiem, izmantojot bezmaksas Python bibliotēku.

Kas ir pypdf?

Pypdf ir vērtīga atvērtā pirmkoda Python bibliotēka, kas pazīstama ar savu prasmi veikt dažādas PDF operācijas. Šī bibliotēka var veikt daudzus ar PDF failiem saistītus uzdevumus un darbības, tomēr šajā lapā mēs koncentrēsimies tikai uz tās PDF parsēšanas funkcijām.

Ievērojamās pypdf parsēšanas funkcijas ietver:

PDF failu lasīšana: Pypdf ļauj atvērt un lasīt/parsēt PDF failus, atvieglojot teksta un citu datu izvilkšanu no esošajiem PDF dokumentiem.
Satura izvilkšana: varat parsēt un izvilkt tekstu, attēlus un pielikumus no PDF dokumentiem atbilstoši savām prasībām.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darba sākšana ar pypdf

Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Izvilkt tekstu no PDF

Please check below code snippet for example:

Zemāk esošajā attēlā redzams no PDF faila izvilktais teksts

Izņemiet attēlus no PDF

Mēs varam izmantot pypdf bibliotēku, lai izvilktu attēlus no PDF dokumenta. Lai iegūtu attēlus, ir nepieciešama papildu bibliotēka ar nosaukumu spilvens. Tas atkārto katru lapu, identificē attēlus un saglabā tos kā atsevišķus attēlu failus, saglabājot to sākotnējos nosaukumus. Lūdzu, pārbaudiet tālāk norādīto koda fragmentu, piemēram:

Teksts, kas ievietots, izmantojot iepriekš minēto kodu, ir iezīmēts tālāk norādītajā sarkanajā lodziņā

Izņemiet pielikumus no PDF

pypdf bibliotēka ļauj iegūt un saglabāt pielikumus no PDF dokumenta. Tas atkārtojas caur pielikumiem un to saturu un saglabā tos atsevišķos failos. Lūdzu, pārbaudiet tālāk norādīto koda fragmentu, piemēram:

Secinājums

Visbeidzot, pypdf izceļas kā daudzpusīga Python bibliotēka funkciju iegūšanai no PDF dokumentiem. Tā piedāvā spēcīgas iespējas teksta, attēlu un pielikumu parsēšanai, padarot to par vērtīgu rīku datu ieguvei, analīzei un dokumentu pārvaldībai.

Tomēr ir svarīgi ņemt vērā, ka pypdf neregulāras teksta izvilkšanas laikā var radīt problēmas, piemēram, papildu atstarpes starp vārdiem un rakstzīmēm, kas var ietekmēt izvilktā satura precizitāti. Neskatoties uz šo ierobežojumu, pypdf joprojām ir vērtīgs līdzeklis PDF failu parsēšanai, īpaši gadījumos, kad precīza teksta formatēšana nav galvenā problēma.