Open Source Python PDF Parser Library

Gratis & öppen källkod Python-bibliotek för att analysera PDF-filer och extrahera text med formateringsinformation.

Vad är pdfminer.six?

Pdfminer.six är ett Python-bibliotek med öppen källkod och verktygsuppsättning för att extrahera data från PDF-dokument. Du kan analysera PDF-dokument och extrahera text, innehållsförteckning & taggat innehåll etc. från PDF-filer för dataanalys.

Här är en kort lista över dess analysfunktioner:

Textextraktion: Extrahera textinnehåll från PDF-dokument inklusive layout- och formateringsinformation som textfärg, teckensnitt och plats etc.
Teckensnittsinformationsextraktion: Extrahera information om de typsnitt som används i PDF-dokument.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Komma igång med pdfminer.six

Du behöver Python version 3.6.0 eller senare för att installera och använda pypdf. Så installera först Python och använd sedan nedanstående kommandon för att installera pypdf på din maskin med pip och virtuell miljö a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extrahera text från PDF-dokument

Du kan använda pdfminer.six-biblioteket i Python för att extrahera text från ett PDF-dokument genom att använda funktionen extract_text som visas i kodavsnittet nedan:

Produktion

Följande skärmdump visar texten extraherad från PDF-dokumentet:

Extrahera teckensnittsinformation från PDF-dokument

Vi kan också extrahera informationen om typsnitten som används i PDF-dokumentet, såsom teckensnittsnamn och teckenstorlek genom att iterera genom layoutelementen på varje sida i PDF-filen. Kontrollera till exempel nedanstående kodavsnitt:

Produktion

Följande skärmdump visar teckensnittsinformationen extraherad från PDF-dokumentet:

Slutsats

Sammanfattningsvis har pdfminer.six förmåga att extrahera text och annan information från PDF-dokument men det saknar funktioner som att extrahera bilder och tabeller från PDF-filer.

Det är viktigt att notera att pdfminer.six-biblioteket stöder extrahering av PDF-sidor som bilder, men det skiljer sig från att extrahera bilder inbäddade i PDF-dokumenten som inte stöds av pdfminer.six. Utvecklare kan dock fortfarande lita på det för att analysera PDF-filer i Python för att extrahera text för deras dataanalysbehov.

Open Source Python PDF Parser Library

Gratis & öppen källkod Python-bibliotek för att analysera PDF-filer och extrahera text med formateringsinformation.

Vad är pdfminer.six?

GitHub-statistik

Komma igång med pdfminer.six

Linux

MacOS

Windows

Extrahera text från PDF-dokument

Produktion

Extrahera teckensnittsinformation från PDF-dokument

Produktion

Slutsats

Liknande Produkter