Python-Bibliothek zur PDF-zu-HTML/XML-Konvertierung
Kostenlose und quelloffene Python-Bibliothek zum Konvertieren von PDF-Dokumenten in HTML und XML.
Was ist pdfminer.six?
pdfminer.six ist eine kostenlose Open-Source-Python-Bibliothek, die zum Konvertieren von PDF-Dokumenten in andere Formate verwendet werden kann.
Hier ist eine kurze Liste der wichtigsten PDF-Konvertierungsfunktionen:
- PDF-zu-HTML-Konvertierung: Konvertieren Sie PDF-Dokumente in das HTML-Format und behalten Sie dabei die Struktur und das Layout des Dokuments bei.
- PDF-zu-XML-Konvertierung: Wandeln Sie PDF-Dateien in das XML-Format um und erfassen Sie dabei alle Details, einschließlich Schriftarten und anderer Elemente.
Erste Schritte mit pdfminer.six
Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf mit pip und virtuelle Umgebung.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konvertieren Sie PDF in HTML
Wir können ein PDF-Dokument in das HTML-Format konvertieren, indem wir die von der Bibliothek bereitgestellte Funktion extract_text_to_fp der Bibliothek pdfminer.six (mit auf HTML eingestelltem Ausgabetyp) verwenden, wie im folgenden Codeausschnitt gezeigt:
Ausgabe
Der folgende Screenshot zeigt die HTML-Datei, die durch die Konvertierung des PDF-Dokuments generiert wurde:
Konvertieren von PDF in XML
Wir können ein PDF-Dokument auch in das XML-Format konvertieren, indem wir dieselbe von der Bibliothek bereitgestellte Funktion extract_text_to_fp verwenden (aber mit dem Ausgabetyp xml), wie im folgenden Codeausschnitt gezeigt:
Ausgabe
Der folgende Screenshot zeigt den aus dem PDF-Dokument konvertierten XML-Inhalt:
Abschluss
Im Allgemeinen unterstützt pdfminer.six die Konvertierung von PDF-Dokumenten in das XML-Format ohne Probleme. Beim Versuch, eine PDF-Datei in HTML zu konvertieren, gelingt es ihm zwar, den Textinhalt zu übertragen, aber oft stört das Gesamtlayout.