Avoimen lähdekoodin Python PDF Parser Library

Jäsennä PDF ja poimi tekstiä, kuvia ja liitteitä PDF-dokumenteista ilmaisella Python-kirjastolla.

Mikä on pypdf?

Pypdf on arvokas avoimen lähdekoodin Python-kirjasto, joka tunnetaan erilaisten PDF-toimintojen taidosta. Tämä kirjasto pystyy käsittelemään monia PDF-tiedostoihin liittyviä tehtäviä ja toimintoja, mutta tällä sivulla keskitymme vain sen PDF-jäsennysominaisuuksiin.

Huomattavia pypdf:n jäsennysominaisuuksia ovat:

  • PDF-tiedostojen lukeminen: Pypdf:n avulla voit avata ja lukea/jäsentää PDF-tiedostoja, mikä helpottaa tekstin ja muiden tietojen poimia olemassa olevista PDF-dokumenteista.
  • Sisällön purkaminen: Voit jäsentää ja poimia PDF-dokumenteista tekstiä, kuvia ja liitteitä tarpeidesi mukaan.
GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

pypdf:n käytön aloittaminen

Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Mac käyttöjärjestelmä


python -m venv venv
source venv/bin/activate
pip install pypdf

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Poimi teksti PDF-tiedostosta

Please check below code snippet for example:

Alla olevassa kuvassa näkyy poimittu teksti PDF-tiedostosta

Pura kuvat PDF-tiedostosta

Voimme käyttää pypdf-kirjastoa kuvien poimimiseen PDF-dokumentista. Kuvien poimimiseen tarvitaan lisäkirjasto nimeltä tyyny. Se toistuu jokaisen sivun läpi, tunnistaa kuvat ja tallentaa ne erillisiksi kuvatiedostoiksi säilyttäen niiden alkuperäiset nimet. Tarkista esimerkiksi alla oleva koodinpätkä:

Yllä olevalla koodilla lisätty teksti on korostettu alla olevassa punaisessa laatikossa

Pura liitteet PDF-tiedostosta

pypdf-kirjaston avulla voit purkaa ja tallentaa liitteitä PDF-dokumentista. Se toistuu liitteiden ja niiden sisällön läpi ja tallentaa ne erillisiin tiedostoihin. Tarkista esimerkiksi alla oleva koodinpätkä:

Johtopäätös

Yhteenvetona voidaan todeta, että pypdf erottuu edukseen monipuolisena Python-kirjastona ominaisuuksien poimimiseen PDF-dokumenteista. Se tarjoaa vankat ominaisuudet tekstin, kuvien ja liitteiden jäsentämiseen, mikä tekee siitä arvokkaan työkalun tietojen poimimiseen, analysointiin ja asiakirjojen hallintaan.

On kuitenkin tärkeää huomata, että pypdf voi aiheuttaa satunnaisia ongelmia tekstin purkamisessa, kuten ylimääräisiä välilyöntejä sanojen ja merkkien välillä, mikä voi vaikuttaa poimitun sisällön tarkkuuteen. Tästä rajoituksesta huolimatta pypdf on edelleen arvokas voimavara PDF-tiedostojen jäsentämisessä, varsinkin tilanteissa, joissa tekstin tarkka muotoilu ei ole ensisijainen huolenaihe.

Samankaltaisia Tuotteita

 Finnish