Open Source Python PDF Parser Library
Gratis & öppen källkod Python-bibliotek för att analysera PDF-filer och extrahera text med formateringsinformation.
Vad är pdfminer.six?
Pdfminer.six är ett Python-bibliotek med öppen källkod och verktygsuppsättning för att extrahera data från PDF-dokument. Du kan analysera PDF-dokument och extrahera text, innehållsförteckning & taggat innehåll etc. från PDF-filer för dataanalys.
Här är en kort lista över dess analysfunktioner:
- Textextraktion: Extrahera textinnehåll från PDF-dokument inklusive layout- och formateringsinformation som textfärg, teckensnitt och plats etc.
- Teckensnittsinformationsextraktion: Extrahera information om de typsnitt som används i PDF-dokument.
Komma igång med pdfminer.six
Du behöver Python version 3.6.0 eller senare för att installera och använda pypdf. Så installera först Python och använd sedan nedanstående kommandon för att installera pypdf på din maskin med pip och virtuell miljö a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extrahera text från PDF-dokument
Du kan använda pdfminer.six-biblioteket i Python för att extrahera text från ett PDF-dokument genom att använda funktionen extract_text som visas i kodavsnittet nedan:
Produktion
Följande skärmdump visar texten extraherad från PDF-dokumentet:
Extrahera teckensnittsinformation från PDF-dokument
Vi kan också extrahera informationen om typsnitten som används i PDF-dokumentet, såsom teckensnittsnamn och teckenstorlek genom att iterera genom layoutelementen på varje sida i PDF-filen. Kontrollera till exempel nedanstående kodavsnitt:
Produktion
Följande skärmdump visar teckensnittsinformationen extraherad från PDF-dokumentet:
Slutsats
Sammanfattningsvis har pdfminer.six förmåga att extrahera text och annan information från PDF-dokument men det saknar funktioner som att extrahera bilder och tabeller från PDF-filer.
Det är viktigt att notera att pdfminer.six-biblioteket stöder extrahering av PDF-sidor som bilder, men det skiljer sig från att extrahera bilder inbäddade i PDF-dokumenten som inte stöds av pdfminer.six. Utvecklare kan dock fortfarande lita på det för att analysera PDF-filer i Python för att extrahera text för deras dataanalysbehov.