Åpen kildekode Python PDF Parser Library

Gratis og åpen kildekode Python-bibliotek for å analysere PDF-filer og trekke ut tekst med formateringsinformasjon.

Hva er pdfminer.six?

Pdfminer.six er et åpen kildekode Python-bibliotek og verktøysett for å trekke ut data fra PDF-dokumenter. Du kan analysere PDF-dokumenter og trekke ut tekst, innholdsfortegnelse og merket innhold etc. fra PDF-er for dataanalyse.

Her er en kort liste over analysefunksjonene:

Tekstekstrahering: Trekk ut tekstinnhold fra PDF-dokumenter, inkludert layout og formateringsinformasjon som tekstfarge, font og plassering osv.
Uttrekking av skriftinformasjon: Trekk ut informasjon om skriftene som brukes i PDF-dokumenter.

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Komme i gang med pdfminer.six

Du trenger Python versjon 3.6.0 eller høyere for å installere og bruke pypdf. Så installer først Python og bruk deretter kommandoene nedenfor for å installere pypdf på maskinen din ved å bruke pip og virtuelt miljø a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Trekk ut tekst fra PDF-dokument

Du kan bruke pdfminer.six-biblioteket i Python til å trekke ut tekst fra et PDF-dokument ved å bruke extract_text-funksjonen som vist i kodebiten nedenfor:

Produksjon

Følgende skjermbilde viser teksten hentet fra PDF-dokumentet:

Trekk ut skriftinformasjon fra PDF-dokument

Vi kan også trekke ut informasjonen om skriftene som brukes i PDF-dokumentet, for eksempel skriftnavn og skriftstørrelse ved å iterere gjennom layoutelementene på hver side i PDF-en. Sjekk for eksempel kodebiten nedenfor:

Produksjon

Følgende skjermbilde viser fontinformasjonen hentet fra PDF-dokumentet:

Konklusjon

Avslutningsvis har pdfminer.six evner til å trekke ut tekst og annen informasjon fra PDF-dokumenter, men den mangler funksjonalitet som å trekke ut bilder og tabeller fra PDF-filer.

Det er viktig å merke seg at pdfminer.six-biblioteket støtter utpakking av PDF-sider som bilder, men det er forskjellig fra å trekke ut bilder innebygd i PDF-dokumentene som ikke støttes av pdfminer.six. Utviklere kan imidlertid fortsatt stole på den for å analysere PDF-filer i Python for å trekke ut tekst for deres dataanalysebehov.

Åpen kildekode Python PDF Parser Library

Gratis og åpen kildekode Python-bibliotek for å analysere PDF-filer og trekke ut tekst med formateringsinformasjon.

Hva er pdfminer.six?

GitHub-statistikk

Komme i gang med pdfminer.six

Linux

MacOS

Windows

Trekk ut tekst fra PDF-dokument

Produksjon

Trekk ut skriftinformasjon fra PDF-dokument

Produksjon

Konklusjon

Lignende Produkter