Åpen kildekode Python PDF Parser Library

Parse PDF og trekk ut tekst, bilder og vedlegg fra PDF-dokumenter ved hjelp av gratis Python-bibliotek.

Hva er pypdf?

Pypdf er et verdifullt åpen kildekode Python-bibliotek kjent for sin dyktighet i forskjellige PDF-operasjoner. Dette biblioteket kan håndtere mange oppgaver og operasjoner relatert til PDF-filer, men vi vil kun fokusere på PDF-parsingsfunksjonene på denne siden.

Bemerkelsesverdige parsefunksjoner til pypdf inkluderer:

  • Lese PDF-filer: Pypdf lar deg åpne og lese/parse PDF-filer, noe som gjør det enkelt å trekke ut tekst og andre data fra eksisterende PDF-dokumenter.
  • Innholdsutvinning: Du kan analysere og trekke ut tekst, bilder og vedlegg fra PDF-dokumenter i henhold til dine krav.
GitHub

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Komme i gang med pypdf

Du trenger Python versjon 3.6.0 eller høyere for å installere og bruke pypdf. Så installer først Python og bruk deretter kommandoene nedenfor for å installere pypdf på maskinen din ved å bruke pip og virtuelt miljø a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Mac os


python -m venv venv
source venv/bin/activate
pip install pypdf

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Trekk ut tekst fra PDF

Please check below code snippet for example:

Bildet nedenfor viser den utpakkede teksten fra PDF-filen

Trekk ut bilder fra PDF

Vi kan bruke pypdf-biblioteket til å trekke ut bilder fra et PDF-dokument. Det krever et ekstra bibliotek kalt pute for å trekke ut bilder. Den går gjennom hver side, identifiserer bilder og lagrer dem som separate bildefiler, og beholder deres opprinnelige navn. Sjekk kodebiten nedenfor for eksempel:

Teksten som er satt inn med koden ovenfor, er uthevet i den røde boksen nedenfor

Trekk ut vedlegg fra PDF

pypdf-biblioteket lar deg trekke ut og lagre vedlegg fra et PDF-dokument. Den går gjennom vedleggene og innholdet deres og lagrer dem i separate filer. Sjekk kodebiten nedenfor for eksempel:

Konklusjon

Avslutningsvis skiller pypdf seg ut som et allsidig Python-bibliotek for å trekke ut funksjoner fra PDF-dokumenter. Det tilbyr robuste muligheter for å analysere tekst, bilder og vedlegg, noe som gjør det til et verdifullt verktøy for datautvinning, analyse og dokumenthåndtering.

Det er imidlertid viktig å merke seg at pypdf kan introdusere sporadiske problemer ved utpakking av tekst, for eksempel ekstra mellomrom mellom ord og tegn, noe som kan påvirke nøyaktigheten til uttrukket innhold. Til tross for denne begrensningen, er pypdf fortsatt en verdifull ressurs for å analysere PDF-filer, spesielt i scenarier der presis formatering av tekst ikke er det primære problemet.

Lignende Produkter

 Norsk