Open Source Python PDF Parser-bibliotheek

Gratis en open-source Python-bibliotheek om PDF's te parseren en tekst met opmaakinformatie te extraheren.

Wat is pdfminer.six?

Pdfminer.six is een open source Python-bibliotheek en toolset voor het extraheren van data uit PDF-documenten. U kunt PDF-documenten parsen en tekst, inhoudsopgaven en getagde inhoud etc. extraheren uit PDF's voor data-analyse.

Hier is een korte lijst van de parseerfuncties:

Tekst extractie: Extraheer tekstinhoud uit PDF-documenten, inclusief lay-out- en opmaakinformatie zoals tekstkleur, lettertype, locatie, enz.
Extractie van lettertype-informatie: Extraheer informatie over de lettertypen die in PDF-documenten worden gebruikt.

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Aan de slag met pdfminer.six

Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en gebruiken. Installeer dus eerst Python en gebruik dan onderstaande commando's om pypdf op je machine te installeren met pip en virtual environment.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Vensters


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Tekst uit PDF-document extraheren

U kunt de pdfminer.six-bibliotheek in Python gebruiken om tekst uit een PDF-document te extraheren met behulp van de functie extract_text, zoals weergegeven in het onderstaande codefragment:

Uitvoer

De volgende schermafbeelding toont de tekst die uit het PDF-document is geëxtraheerd:

Lettertype-informatie uit PDF-document extraheren

We kunnen ook de informatie over de lettertypen die in het PDF-document worden gebruikt, zoals de lettertypenaam en de lettergrootte, extraheren door lay-outelementen van elke pagina in de PDF te doorlopen. Bekijk bijvoorbeeld het onderstaande codefragment:

Uitvoer

De volgende schermafbeelding toont de lettertype-informatie die uit het PDF-document is geëxtraheerd:

Conclusie

Concluderend kan gesteld worden dat pdfminer.six de mogelijkheid heeft om tekst en andere informatie uit PDF-documenten te halen, maar dat het programma functies mist zoals het halen van afbeeldingen en tabellen uit PDF's.

Het is belangrijk om op te merken dat de pdfminer.six-bibliotheek het extraheren van PDF-pagina's als afbeeldingen ondersteunt, maar het is anders dan het extraheren van afbeeldingen die zijn ingesloten in de PDF-documenten, wat niet wordt ondersteund door pdfminer.six. Ontwikkelaars kunnen er echter nog steeds op vertrouwen voor het parsen van PDF's in Python om tekst te extraheren voor hun data-analysebehoeften.

Open Source Python PDF Parser-bibliotheek

Gratis en open-source Python-bibliotheek om PDF's te parseren en tekst met opmaakinformatie te extraheren.

Wat is pdfminer.six?

GitHub-statistieken

Aan de slag met pdfminer.six

Linux

MacOS

Vensters

Tekst uit PDF-document extraheren

Uitvoer

Lettertype-informatie uit PDF-document extraheren

Uitvoer

Conclusie

Vergelijkbare Producten