Open Source Python PDF Parser Library
Gratis & Open-source Python-bibliotek til at analysere PDF-filer og udtrække tekst med formateringsoplysninger.
Hvad er pdfminer.six?
Pdfminer.six er et open source Python-bibliotek og værktøjssæt til at udtrække data fra PDF-dokumenter. Du kan parse PDF-dokumenter og udtrække tekst, indholdsfortegnelse & tagget indhold osv. fra PDF-filer til dataanalyse.
Her er en kort liste over dens parsingfunktioner:
- Tekstudtrækning: Udtræk tekstindhold fra PDF-dokumenter, herunder layout- og formateringsoplysninger som tekstfarve, skrifttype og placering osv.
- Udtrækning af skrifttypeoplysninger: Udtræk oplysninger om de skrifttyper, der bruges i PDF-dokumenter.
Kom godt i gang med pdfminer.six
Du skal bruge Python version 3.6.0 eller nyere for at installere og bruge pypdf. Så installer først Python og brug derefter nedenstående kommandoer til at installere pypdf på din maskine ved hjælp af pip og virtuelt miljø.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Uddrag tekst fra PDF-dokument
Du kan bruge pdfminer.six-biblioteket i Python til at udtrække tekst fra et PDF-dokument ved at bruge funktionen extract_text som vist i nedenstående kodestykke:
Produktion
Følgende skærmbillede viser teksten udtrukket fra PDF-dokumentet:
Uddrag skrifttypeoplysninger fra PDF-dokument
Vi kan også udtrække oplysningerne om de skrifttyper, der bruges i PDF-dokumentet, såsom skrifttypenavnet og skriftstørrelsen ved at gentage layoutelementerne på hver side i PDF'en. Tjek f.eks. nedenstående kodestykke:
Produktion
Følgende skærmbillede viser skrifttypeoplysningerne udtrukket fra PDF-dokumentet:
Konklusion
Som konklusion har pdfminer.six evner til at udtrække tekst og anden information fra PDF-dokumenter, men den mangler funktionaliteter såsom udtrækning af billeder og tabeller fra PDF-filer.
Det er vigtigt at bemærke, at pdfminer.six-biblioteket understøtter udtrækning af PDF-sider som billeder, men det er anderledes end at udtrække billeder indlejret i PDF-dokumenterne, som ikke understøttes af pdfminer.six. Udviklere kan dog stadig stole på det til at parse PDF'er i Python for at udtrække tekst til deres dataanalysebehov.