Atvērtā pirmkoda Python PDF parsētāja bibliotēka
Parsējiet PDF un izņemiet tekstu, attēlus un pielikumus no PDF dokumentiem, izmantojot bezmaksas Python bibliotēku.
Kas ir pypdf?
Pypdf ir vērtīga atvērtā pirmkoda Python bibliotēka, kas pazīstama ar savu prasmi veikt dažādas PDF operācijas. Šī bibliotēka var veikt daudzus ar PDF failiem saistītus uzdevumus un darbības, tomēr šajā lapā mēs koncentrēsimies tikai uz tās PDF parsēšanas funkcijām.
Ievērojamās pypdf parsēšanas funkcijas ietver:
- PDF failu lasīšana: Pypdf ļauj atvērt un lasīt/parsēt PDF failus, atvieglojot teksta un citu datu izvilkšanu no esošajiem PDF dokumentiem.
- Satura izvilkšana: varat parsēt un izvilkt tekstu, attēlus un pielikumus no PDF dokumentiem atbilstoši savām prasībām.
Darba sākšana ar pypdf
Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Izvilkt tekstu no PDF
Please check below code snippet for example:Zemāk esošajā attēlā redzams no PDF faila izvilktais teksts
Izņemiet attēlus no PDF
Mēs varam izmantot pypdf bibliotēku, lai izvilktu attēlus no PDF dokumenta. Lai iegūtu attēlus, ir nepieciešama papildu bibliotēka ar nosaukumu spilvens. Tas atkārto katru lapu, identificē attēlus un saglabā tos kā atsevišķus attēlu failus, saglabājot to sākotnējos nosaukumus. Lūdzu, pārbaudiet tālāk norādīto koda fragmentu, piemēram:
Teksts, kas ievietots, izmantojot iepriekš minēto kodu, ir iezīmēts tālāk norādītajā sarkanajā lodziņā
Izņemiet pielikumus no PDF
pypdf bibliotēka ļauj iegūt un saglabāt pielikumus no PDF dokumenta. Tas atkārtojas caur pielikumiem un to saturu un saglabā tos atsevišķos failos. Lūdzu, pārbaudiet tālāk norādīto koda fragmentu, piemēram:
Secinājums
Visbeidzot, pypdf izceļas kā daudzpusīga Python bibliotēka funkciju iegūšanai no PDF dokumentiem. Tā piedāvā spēcīgas iespējas teksta, attēlu un pielikumu parsēšanai, padarot to par vērtīgu rīku datu ieguvei, analīzei un dokumentu pārvaldībai.
Tomēr ir svarīgi ņemt vērā, ka pypdf neregulāras teksta izvilkšanas laikā var radīt problēmas, piemēram, papildu atstarpes starp vārdiem un rakstzīmēm, kas var ietekmēt izvilktā satura precizitāti. Neskatoties uz šo ierobežojumu, pypdf joprojām ir vērtīgs līdzeklis PDF failu parsēšanai, īpaši gadījumos, kad precīza teksta formatēšana nav galvenā problēma.