Åpen kildekode Python PDF Parser Library
Gratis og åpen kildekode Python-bibliotek for å analysere PDF-filer og trekke ut tekst med formateringsinformasjon.
Hva er pdfminer.six?
Pdfminer.six er et åpen kildekode Python-bibliotek og verktøysett for å trekke ut data fra PDF-dokumenter. Du kan analysere PDF-dokumenter og trekke ut tekst, innholdsfortegnelse og merket innhold etc. fra PDF-er for dataanalyse.
Her er en kort liste over analysefunksjonene:
- Tekstekstrahering: Trekk ut tekstinnhold fra PDF-dokumenter, inkludert layout og formateringsinformasjon som tekstfarge, font og plassering osv.
- Uttrekk av skriftinformasjon: Trekk ut informasjon om skriftene som brukes i PDF-dokumenter.
Komme i gang med pdfminer.six
Du trenger Python versjon 3.6.0 eller høyere for å installere og bruke pypdf. Så installer først Python og bruk deretter kommandoene nedenfor for å installere pypdf på maskinen din ved å bruke pip og virtuelt miljø a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac os
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Trekk ut tekst fra PDF-dokument
Du kan bruke pdfminer.six-biblioteket i Python til å trekke ut tekst fra et PDF-dokument ved å bruke extract_text-funksjonen som vist i kodebiten nedenfor:
Følgende skjermbilde viser teksten hentet fra PDF-dokumentet:
Trekk ut skriftinformasjon fra PDF-dokument
Vi kan også trekke ut informasjonen om skriftene som brukes i PDF-dokumentet, for eksempel skriftnavn og skriftstørrelse, ved å iterere gjennom layoutelementene på hver side i PDF-en. Sjekk for eksempel kodebiten nedenfor:
Følgende skjermbilde viser fontinformasjonen hentet fra PDF-dokumentet:
Konklusjon
Avslutningsvis har pdfminer.six evner til å trekke ut tekst og annen informasjon fra PDF-dokumenter, men den mangler funksjonalitet som å trekke ut bilder og tabeller fra PDF-er.
Det er viktig å merke seg at pdfminer.six-biblioteket støtter utpakking av PDF-sider som bilder, men det er forskjellig fra å trekke ut bilder innebygd i PDF-dokumentene som ikke støttes av pdfminer.six. Utviklere kan imidlertid fortsatt stole på den for å analysere PDF-filer i Python for å trekke ut tekst for deres dataanalysebehov.