1. Produkte
  2.   Konvertierung
  3.   Python
  4.   pdfminer.six
 
  

Python-Bibliothek zur Konvertierung von PDF in HTML/XML

Kostenlose und Open-Source-Python-Bibliothek zum Konvertieren von PDF-Dokumenten in HTML und XML.

Was ist pdfminer.six?

pdfminer.six ist eine kostenlose und quelloffene Python-Bibliothek, mit der PDF-Dokumente in andere Formate konvertiert werden können.

Hier ist eine kurze Liste der wichtigsten PDF-Konvertierungsfunktionen:

  • PDF-zu-HTML-Konvertierung: Konvertieren Sie PDF-Dokumente in das HTML-Format, während die Struktur und das Layout des Dokuments erhalten bleiben.
  • PDF-zu-XML-Konvertierung: Wandeln Sie PDF-Dateien in das XML-Format um und erfassen Sie dabei alle Details, einschließlich Schriftarten und anderer Elemente.
GitHub

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Erste Schritte mit pdfminer.six

Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf auf Ihrem Computer mit pip und virtueller Umgebung zu installieren.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konvertieren Sie PDF in HTML

Wir können ein PDF-Dokument in das HTML-Format konvertieren, indem wir die von der Bibliothek pdfminer.six bereitgestellte Funktion extract_text_to_fp (mit dem Ausgabetyp „html“) verwenden, wie im folgenden Codeausschnitt gezeigt:

Ausgabe

Der folgende Screenshot zeigt die HTML-Datei, die durch die Konvertierung des PDF-Dokuments erstellt wurde:

Konvertieren von PDF in XML

Wir können ein PDF-Dokument auch in das XML-Format konvertieren, indem wir die gleiche von der Bibliothek bereitgestellte Funktion extract_text_to_fp verwenden (aber mit dem Ausgabetyp auf XML eingestellt), wie im folgenden Codeausschnitt gezeigt:

Ausgabe

Der folgende Screenshot zeigt den aus dem PDF-Dokument konvertierten XML-Inhalt:

Abschluss

Im Allgemeinen unterstützt pdfminer.six die Konvertierung von PDF-Dokumenten in das XML-Format ohne Probleme. Beim Versuch, eine PDF-Datei in HTML zu konvertieren, gelingt es jedoch, den Textinhalt zu übertragen, stört jedoch häufig das Gesamtlayout.

Ähnliche Produkte

 Deutsch