Open-Source-Python-PDF-Parser-Bibliothek
Kostenlose und quelloffene Python-Bibliothek zum Parsen von PDFs und Extrahieren von Text mit Formatierungsinformationen.
Was ist pdfminer.six?
Pdfminer.six ist eine Open-Source-Python-Bibliothek und ein Toolset zum Extrahieren von Daten aus PDF-Dokumenten. Sie können PDF-Dokumente analysieren und Text, Inhaltsverzeichnisse, markierte Inhalte usw. aus PDFs zur Datenanalyse extrahieren.
Hier ist eine kurze Liste seiner Parsing-Funktionen:
- Textextraktion: Extrahieren Sie Textinhalte aus PDF-Dokumenten, einschließlich Layout- und Formatierungsinformationen wie Textfarbe, Schriftart und -position usw.
- Extraktion von Schriftartinformationen: Extrahieren Sie Informationen über die in PDF-Dokumenten verwendeten Schriftarten.
Erste Schritte mit pdfminer.six
Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf mit pip und virtuelle Umgebung.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extrahieren Sie Text aus einem PDF-Dokument
Sie können die Bibliothek pdfminer.six in Python verwenden, um Text aus einem PDF-Dokument zu extrahieren, indem Sie die Funktion extract_text verwenden, wie im folgenden Codeausschnitt gezeigt:
Ausgabe
Der folgende Screenshot zeigt den aus dem PDF-Dokument extrahierten Text:
Extrahieren Sie Schriftartinformationen aus einem PDF-Dokument
Wir können auch die Informationen über die im PDF-Dokument verwendeten Schriftarten extrahieren, z. B. den Namen der Schriftart und die Schriftgröße, indem wir die Layoutelemente jeder Seite im PDF durchlaufen. Sehen Sie sich zum Beispiel den folgenden Codeausschnitt an:
Ausgabe
Der folgende Screenshot zeigt die aus dem PDF-Dokument extrahierten Schriftartinformationen:
Abschluss
Zusammenfassend lässt sich sagen, dass pdfminer.six zwar in der Lage ist, Text und andere Informationen aus PDF-Dokumenten zu extrahieren, ihm jedoch Funktionen wie das Extrahieren von Bildern und Tabellen aus PDFs fehlen.
Es ist wichtig zu beachten, dass die Bibliothek pdfminer.six das Extrahieren von PDF-Seiten als Bilder unterstützt, sich jedoch vom Extrahieren von in PDF-Dokumenten eingebetteten Bildern unterscheidet, was von pdfminer.six nicht unterstützt wird. Entwickler können sich jedoch beim Parsen von PDFs in Python weiterhin darauf verlassen, um Text für ihre Datenanalyseanforderungen zu extrahieren.