Open Source Python PDF Parser Library

Gratis & Open-source Python-bibliotek til at analysere PDF-filer og udtrække tekst med formateringsoplysninger.

Hvad er pdfminer.six?

Pdfminer.six er et open source Python-bibliotek og værktøjssæt til at udtrække data fra PDF-dokumenter. Du kan parse PDF-dokumenter og udtrække tekst, indholdsfortegnelse & tagget indhold osv. fra PDF-filer til dataanalyse.

Her er en kort liste over dens parsingfunktioner:

Tekstudtrækning: Udtræk tekstindhold fra PDF-dokumenter, herunder layout- og formateringsoplysninger som tekstfarve, skrifttype og placering osv.
Udtrækning af skrifttypeoplysninger: Udtræk oplysninger om de skrifttyper, der bruges i PDF-dokumenter.

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Kom godt i gang med pdfminer.six

Du skal bruge Python version 3.6.0 eller nyere for at installere og bruge pypdf. Så installer først Python og brug derefter nedenstående kommandoer til at installere pypdf på din maskine ved hjælp af pip og virtuelt miljø a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Uddrag tekst fra PDF-dokument

Du kan bruge pdfminer.six-biblioteket i Python til at udtrække tekst fra et PDF-dokument ved at bruge extract_text-funktionen som vist i nedenstående kodestykke:

Produktion

Følgende skærmbillede viser teksten udtrukket fra PDF-dokumentet:

Uddrag skrifttypeoplysninger fra PDF-dokument

Vi kan også udtrække oplysningerne om de skrifttyper, der bruges i PDF-dokumentet, såsom skrifttypenavnet og skriftstørrelsen ved at gentage layoutelementerne på hver side i PDF'en. Tjek f.eks. nedenstående kodestykke:

Produktion

Følgende skærmbillede viser skrifttypeoplysningerne udtrukket fra PDF-dokumentet:

Konklusion

Afslutningsvis har pdfminer.six evner til at udtrække tekst og anden information fra PDF-dokumenter, men den mangler funktionaliteter såsom udtrækning af billeder og tabeller fra PDF-filer.

Det er vigtigt at bemærke, at pdfminer.six-biblioteket understøtter udtrækning af PDF-sider som billeder, men det er anderledes end at udpakke billeder, der er indlejret i PDF-dokumenterne, som ikke understøttes af pdfminer.six. Udviklere kan dog stadig stole på det til at parse PDF'er i Python for at udtrække tekst til deres dataanalysebehov.

Open Source Python PDF Parser Library

Gratis & Open-source Python-bibliotek til at analysere PDF-filer og udtrække tekst med formateringsoplysninger.

Hvad er pdfminer.six?

GitHub-statistik

Kom godt i gang med pdfminer.six

Linux

MacOS

Windows

Uddrag tekst fra PDF-dokument

Produktion

Uddrag skrifttypeoplysninger fra PDF-dokument

Produktion

Konklusion

Lignende Produkter