Open Source Python-Bibliothek zum Konvertieren von PDF-Dateien in DOCX

Entdecken Sie die Leistungsfähigkeit der Open-Source-Python-Bibliothek, um PDF-Dokumente direkt aus Ihren Python-Anwendungen in DOCX zu konvertieren.

Was ist pdf2docx?

pdf2docx API-Funktionen

Im Folgenden sind einige der Hauptfunktionen der pdf2docx-API aufgeführt:

Konvertierung mehrseitiger PDFs: Verarbeitet mehrseitige PDF-Dokumente und konvertiert jede Seite in einen entsprechenden Abschnitt in der DOCX-Datei.
Textextraktion: Extrahiert effizient Text und behält dabei das Layout und die Formatierung ähnlich dem Original-PDF bei.
Tabellenerkennung und -konvertierung: Verwendet intelligente Algorithmen zum Erkennen und Extrahieren von Tabellen und konvertiert sie in bearbeitbare Tabellen im DOCX-Format.
Bildextraktion: Extrahiert im PDF eingebettete Bilder und platziert sie entsprechend in der DOCX-Datei.
Schriftstile und Formatierung: Behält während der Konvertierung grundlegende Schriftstile und Formatierungen wie Fett, Kursivschrift und Unterstreichungen bei.
Seitenlayout beibehalten: Zielt darauf ab, das ursprüngliche Layout der PDF-Datei beizubehalten, einschließlich Absätzen, Spalten und anderen Formatierungselementen.
Benutzerdefinierte Konvertierungseinstellungen: Ermöglicht die Festlegung benutzerdefinierter Einstellungen für den Konvertierungsprozess, z. B. das Ignorieren von Bildern oder das Extrahieren von nur Text.
Stapelverarbeitung: Unterstützt Stapelverarbeitung und ermöglicht die gleichzeitige Konvertierung mehrerer PDFs in das DOCX-Format.
Vorlagenbasierte Extraktion: Ermöglicht für PDFs mit einem konsistenten Layout die Definition von Vorlagen zur Steuerung des Extraktionsprozesses und verbessert so die Genauigkeit für bestimmte Dokumenttypen.

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Erste Schritte mit pdf2docx

Sie können die pdf2docx-Bibliothek von GitHub oder mit dem Befehl „pip install“ herunterladen.

Installation

Die Installation von pdf2docx ist einfach und kann wie unten gezeigt vom Terminal aus durchgeführt werden:

pdf2docx installieren


pip3 install pdf2docx

pdf2docx Codebeispiele

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Konvertieren Sie PDF in DOCX mit pdf2docx

Mit pdf2docx können Sie ein PDF-Dokument aus Ihrer Python-Anwendung in DOCX konvertieren. Verwenden Sie dazu den folgenden Beispielcode in Ihrer Python-Anwendung.

Bildquelle: pdf2docx Github Repo

Konvertieren Sie bestimmte Seiten einer PDF-Datei mit pdf2docx

Mit pdf2docx können Sie auch bestimmte Seiten einer PDF-Datei in DOCX konvertieren. Sie definieren die Start- und Endseiten einer PDF-Datei, die in DOCX konvertiert werden sollen, und die API konvertiert diese dann in DOCX.

Extrahieren Sie Tabellen aus einer PDF-Datei mit pdf2docx

Mit pdf2docx können Sie auch Tabellen aus einer PDF-Datei extrahieren und Text daraus abrufen. Alternativ können Sie Tabellen aus einer PDF-Datei extrahieren und diese auch als DOCX-Dateien speichern.

pdf2docx-Einschränkungen

Auch pdf2docx weist einige Einschränkungen auf, die bei der Arbeit mit der API beachtet werden sollten. Diese sind:

It can only process Text-based PDF file
Only Left to right language PDF files can be processed
Normale Leserichtung, keine Worttransformation/-rotation
Regelbasierte Methode kann das PDF-Layout nicht zu 100 % konvertieren

pdf2docx Ressourcen

KOSTENLOSE PDF-Vorlagendatei

Abschluss

pdf2docx ist eine sehr leistungsstarke Bibliothek zum Konvertieren von PDF in DOCX aus Ihren Python-Anwendungen heraus. Als Anwendungsentwickler können Sie diese API verwenden, um leistungsstarke PDF-Konvertierungsanwendungen zu erstellen und diese online zu hosten, um PDF in DOCX in Ihrer Anwendung zu konvertieren.