1. Producten
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Open Source Python PDF-parserbibliotheek

Gratis en open-source Python-bibliotheek om PDF's te parseren en tekst te extraheren met opmaakinformatie.

Wat is pdfminer.six?

Pdfminer.six is een open source Python-bibliotheek en toolset voor het extraheren van gegevens uit PDF-documenten. U kunt PDF-documenten ontleden en tekst, inhoudsopgave en getagde inhoud etc. uit PDF's extraheren voor gegevensanalyse.

Hier is een korte lijst met de parseerfuncties:

  • Tekstextractie: Extraheer tekstinhoud uit PDF-documenten, inclusief lay-out- en opmaakinformatie zoals tekstkleur, lettertype en locatie enz.
  • Extractie van lettertype-informatie: Extraheer informatie over de lettertypen die in PDF-documenten worden gebruikt.
GitHub

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Aan de slag met pdfminer.six

Je hebt Python versie 3.6.0 of hoger nodig om pypdf te installeren en te gebruiken. Installeer dus eerst Python en gebruik vervolgens de onderstaande opdrachten om pypdf op uw computer te installeren met behulp van pip en virtuele omgeving.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ramen


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extraheer tekst uit een PDF-document

U kunt de bibliotheek pdfminer.six in Python gebruiken om tekst uit een PDF-document te extraheren met behulp van de functie extract_text, zoals weergegeven in het onderstaande codefragment:

De volgende schermafbeelding toont de tekst die uit het PDF-document is geëxtraheerd:

Lettertype-informatie extraheren uit een PDF-document

We kunnen ook de informatie over de lettertypen die in het PDF-document worden gebruikt, zoals de lettertypenaam en de lettergrootte, extraheren door de lay-outelementen van elke pagina in de PDF te doorlopen. Bekijk bijvoorbeeld het onderstaande codefragment:

De volgende schermafbeelding toont de lettertype-informatie die uit het PDF-document is geëxtraheerd:

Conclusie

Kortom, pdfminer.six heeft de mogelijkheid om tekst en andere informatie uit PDF-documenten te extraheren, maar het ontbreekt aan functionaliteiten zoals het extraheren van afbeeldingen en tabellen uit PDF's.

Het is belangrijk op te merken dat de pdfminer.six-bibliotheek het extraheren van PDF-pagina's als afbeeldingen ondersteunt, maar dit verschilt van het extraheren van afbeeldingen die zijn ingebed in de PDF-documenten, wat niet wordt ondersteund door pdfminer.six. Ontwikkelaars kunnen er echter nog steeds op vertrouwen voor het parseren van PDF's in Python om tekst te extraheren voor hun gegevensanalysebehoeften.

Vergelijkbare Producten

 Nederlands