Open-Source-Python-PDF-Parser-Bibliothek
Probieren Sie diese kostenlose Open-Source-Python-Bibliothek aus, um Text, Bilder, Tabellen und andere Inhalte aus PDF-Dokumenten zu analysieren, zu lesen und zu extrahieren.
Was ist PyMuPDF?
PyMuPDF, auch bekannt als Fitz, ist eine Open-Source-Python-Bibliothek, die umfassende Tools für die Arbeit mit PDF-Dateien bereitstellt. Mit PyMuPDF können Benutzer Aufgaben wie das Öffnen von PDFs, das Extrahieren von Text, Bildern und Tabellen, das Bearbeiten von Seiteneigenschaften wie Drehen und Zuschneiden, das Erstellen neuer PDF-Dokumente und das Konvertieren von PDF-Seiten in Bilder effizient ausführen.
PyMuPDF unterstützt mehrere Funktionen, die unten aufgeführt sind:
- Lesen von PDF-Dokumenten: PyMuPDF kann PDF-Dokumente öffnen und lesen und ermöglicht Ihnen den Zugriff auf den darin enthaltenen Text, die Bilder und andere Inhalte.
- Textextraktion: Sie können Text aus PDF-Dokumenten extrahieren, einschließlich Textinhalt, Schriftarten und Layoutinformationen.
- Bildextraktion: Sie können Bilder aus PDF-Dokumenten in verschiedenen Formaten extrahieren, z. B. JPEG oder PNG.
- Tabellenextraktion: Sie können auch Tabellen aus PDF-Dokumenten extrahieren.
In dieser Rezension wird unser Hauptaugenmerk auf den Extraktions- und Parsing-Funktionen der Bibliothek liegen. Für eine ausführliche Bewertung der Aufteilungs-, Zusammenführungs- und Seitenverwaltungsfunktionen klicken Sie bitte hier.
Erste Schritte mit PyMuPDF
Sie benötigen Python Version 3.8.0 oder höher, um PyMuPDF zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um PyMuPDF mit pip und virtuelle Umgebung.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac OS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Text aus PDF extrahieren
Sie können die PyMuPDF-Bibliothek in Python verwenden, um Text aus einem PDF-Dokument zu extrahieren und Textanalysen durchzuführen, beispielsweise das Zählen von Wörtern, indem Sie einfach die in der Bibliothek bereitgestellten Funktionen verwenden, wie im folgenden Code gezeigt:
Ausgabe
Das Bild unten zeigt den extrahierten Text und die Anzahl der Wörter in der PDF-Datei:
Extrahieren Sie Bilder aus PDF
Wir können die PyMuPDF-Bibliothek verwenden, um Bilder aus einem PDF-Dokument in Python zu extrahieren. Das folgende Code-Snippet öffnet die angegebene PDF-Datei, extrahiert Bilder aus der PDF-Datei und speichert sie im aktuellen Arbeitsverzeichnis:
Ausgabe
Es folgt das aus dem PDF-Dokument extrahierte PNG-Bild
Extrahieren Sie Tabellen aus PDF
Wir können die PyMuPDF-Bibliothek auch verwenden, um ein PDF-Dokument zu verarbeiten und Tabellen daraus zu extrahieren. Sehen Sie sich den folgenden Codeausschnitt an, der die angegebene PDF-Datei öffnet und Tabellen aus dem PDF-Dokument extrahiert:
Ausgabe
Der folgende Screenshot zeigt die aus dem PDF-Dokument extrahierte Tabelle:
Text in PDF einfügen
Das folgende Python-Code-Snippet demonstriert die Verwendung der PyMuPDF-Bibliothek zum Einfügen von Text in eine PDF-Datei und zum Speichern der geänderten PDF-Datei als text.pdf:
Ausgabe
Der mit dem obigen Code eingefügte Text wird im roten Feld unten hervorgehoben:
PDF-Texterkennung mittels OCR mit PyMuPDF
We will perform OCR on the PDF file containing the following image:Ausgabe
Das Bild unten zeigt den Text, der aus dem Bild in der bereitgestellten PDF-Datei extrahiert wurde:
Abschluss
Zusammenfassend ist PyMuPDF ein professionelles Tool mit einigen klaren Stärken und Schwächen. Es eignet sich hervorragend für Aufgaben wie OCR und Textextraktion, was es für die Verarbeitung von Text in PDFs wertvoll macht.
Allerdings eignet es sich nicht so gut zum Extrahieren von Tabellen aus PDFs, insbesondere wenn PDFs eine komplexe Struktur oder eine größere Seitenzahl haben, was für einige Benutzer ein Nachteil sein könnte. Außerdem sind in bestimmten Situationen möglicherweise zusätzliche Bibliotheken wie Pandas und Tesseract OCR-Sprachdatendateien erforderlich, was die Verwendung komplexer macht. Trotz dieser Einschränkungen bleibt PyMuPDF eine solide Wahl für die Arbeit mit Text in PDFs.