Open Source Python PDF Parser-bibliotheek
Gratis en open-source Python-bibliotheek om PDF's te parseren en tekst met opmaakinformatie te extraheren.
Wat is pdfminer.six?
Pdfminer.six is een open source Python-bibliotheek en toolset voor het extraheren van data uit PDF-documenten. U kunt PDF-documenten parsen en tekst, inhoudsopgaven en getagde inhoud etc. extraheren uit PDF's voor data-analyse.
Hier is een korte lijst van de parseerfuncties:
- Tekst extractie: Extraheer tekstinhoud uit PDF-documenten, inclusief lay-out- en opmaakinformatie zoals tekstkleur, lettertype, locatie, enz.
- Extractie van lettertype-informatie: Extraheer informatie over de lettertypen die in PDF-documenten worden gebruikt.
Aan de slag met pdfminer.six
Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en gebruiken. Installeer dus eerst Python en gebruik dan onderstaande commando's om pypdf op je machine te installeren met pip en virtual environment.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Vensters
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Tekst uit PDF-document extraheren
U kunt de pdfminer.six-bibliotheek in Python gebruiken om tekst uit een PDF-document te extraheren met behulp van de functie extract_text, zoals weergegeven in het onderstaande codefragment:
Uitvoer
De volgende schermafbeelding toont de tekst die uit het PDF-document is geëxtraheerd:
Lettertype-informatie uit PDF-document extraheren
We kunnen ook de informatie over de lettertypen die in het PDF-document worden gebruikt, zoals de lettertypenaam en de lettergrootte, extraheren door lay-outelementen van elke pagina in de PDF te doorlopen. Bekijk bijvoorbeeld het onderstaande codefragment:
Uitvoer
De volgende schermafbeelding toont de lettertype-informatie die uit het PDF-document is geëxtraheerd:
Conclusie
Concluderend kan gesteld worden dat pdfminer.six de mogelijkheid heeft om tekst en andere informatie uit PDF-documenten te halen, maar dat het programma functies mist zoals het halen van afbeeldingen en tabellen uit PDF's.
Het is belangrijk om op te merken dat de pdfminer.six-bibliotheek het extraheren van PDF-pagina's als afbeeldingen ondersteunt, maar het is anders dan het extraheren van afbeeldingen die zijn ingesloten in de PDF-documenten, wat niet wordt ondersteund door pdfminer.six. Ontwikkelaars kunnen er echter nog steeds op vertrouwen voor het parsen van PDF's in Python om tekst te extraheren voor hun data-analysebehoeften.