1. Produkte
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Open Source Python PDF Parser-Bibliothek

Kostenlose und Open-Source-Python-Bibliothek zum Parsen von PDFs und Extrahieren von Text mit Formatierungsinformationen.

Was ist pdfminer.six?

Pdfminer.six ist eine Open-Source-Python-Bibliothek und ein Toolset zum Extrahieren von Daten aus PDF-Dokumenten. Sie können PDF-Dokumente analysieren und Text, Inhaltsverzeichnisse und getaggte Inhalte usw. aus PDFs zur Datenanalyse extrahieren.

Hier ist eine kurze Liste seiner Analysefunktionen:

  • Textextraktion: Extrahieren Sie Textinhalte aus PDF-Dokumenten, einschließlich Layout- und Formatierungsinformationen wie Textfarbe, Schriftart und Position usw.
  • Extraktion von Schriftartinformationen: Extrahieren Sie Informationen zu den in PDF-Dokumenten verwendeten Schriftarten.
GitHub

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Erste Schritte mit pdfminer.six

Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf auf Ihrem Computer mit pip und virtueller Umgebung zu installieren.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Text aus PDF-Dokument extrahieren

Sie können die Bibliothek pdfminer.six in Python verwenden, um Text aus einem PDF-Dokument zu extrahieren. Dazu verwenden Sie die Funktion extract_text, wie im folgenden Codeausschnitt gezeigt:

Ausgabe

Der folgende Screenshot zeigt den aus dem PDF-Dokument extrahierten Text:

Extrahieren von Schriftinformationen aus einem PDF-Dokument

Wir können auch Informationen zu den im PDF-Dokument verwendeten Schriftarten wie Schriftname und Schriftgröße extrahieren, indem wir die Layoutelemente jeder Seite im PDF-Dokument durchlaufen. Sehen Sie sich beispielsweise den folgenden Codeausschnitt an:

Ausgabe

Der folgende Screenshot zeigt die aus dem PDF-Dokument extrahierten Schriftartinformationen:

Abschluss

Zusammenfassend lässt sich sagen, dass pdfminer.six zwar in der Lage ist, Text und andere Informationen aus PDF-Dokumenten zu extrahieren, ihm fehlen jedoch Funktionen wie das Extrahieren von Bildern und Tabellen aus PDFs.

Es ist wichtig zu beachten, dass die Bibliothek pdfminer.six das Extrahieren von PDF-Seiten als Bilder unterstützt. Dies unterscheidet sich jedoch vom Extrahieren von in PDF-Dokumenten eingebetteten Bildern, das von pdfminer.six nicht unterstützt wird. Entwickler können sich jedoch weiterhin darauf verlassen, wenn sie PDFs in Python analysieren, um Text für ihre Datenanalyseanforderungen zu extrahieren.

Ähnliche Produkte

 Deutsch