Open Source Python-Bibliothek zum Konvertieren von PDF-Dateien in DOCX
Entdecken Sie die Leistungsfähigkeit der Open-Source-Python-Bibliothek, um PDF-Dokumente direkt aus Ihren Python-Anwendungen in DOCX zu konvertieren.
Was ist pdf2docx?
pdf2docx API-Funktionen
Im Folgenden sind einige der Hauptfunktionen der pdf2docx-API aufgeführt:
- Konvertierung mehrseitiger PDFs: Verarbeitet mehrseitige PDF-Dokumente und konvertiert jede Seite in einen entsprechenden Abschnitt in der DOCX-Datei.
- Textextraktion: Extrahiert effizient Text und behält dabei das Layout und die Formatierung ähnlich dem Original-PDF bei.
- Tabellenerkennung und -konvertierung: Verwendet intelligente Algorithmen zum Erkennen und Extrahieren von Tabellen und konvertiert sie in bearbeitbare Tabellen im DOCX-Format.
- Bildextraktion: Extrahiert im PDF eingebettete Bilder und platziert sie entsprechend in der DOCX-Datei.
- Schriftstile und Formatierung: Behält während der Konvertierung grundlegende Schriftstile und Formatierungen wie Fett, Kursivschrift und Unterstreichungen bei.
- Seitenlayout beibehalten: Zielt darauf ab, das ursprüngliche Layout der PDF-Datei beizubehalten, einschließlich Absätzen, Spalten und anderen Formatierungselementen.
- Benutzerdefinierte Konvertierungseinstellungen: Ermöglicht die Festlegung benutzerdefinierter Einstellungen für den Konvertierungsprozess, z. B. das Ignorieren von Bildern oder das Extrahieren von nur Text.
- Stapelverarbeitung: Unterstützt Stapelverarbeitung und ermöglicht die gleichzeitige Konvertierung mehrerer PDFs in das DOCX-Format.
- Vorlagenbasierte Extraktion: Ermöglicht für PDFs mit einem konsistenten Layout die Definition von Vorlagen zur Steuerung des Extraktionsprozesses und verbessert so die Genauigkeit für bestimmte Dokumenttypen.
Erste Schritte mit pdf2docx
Sie können die pdf2docx-Bibliothek von GitHub oder mit dem Befehl „pip install“ herunterladen.
Installation
Die Installation von pdf2docx ist einfach und kann wie unten gezeigt vom Terminal aus durchgeführt werden:
pdf2docx installieren
pip3 install pdf2docx
pdf2docx Codebeispiele
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.Konvertieren Sie PDF in DOCX mit pdf2docx
Mit pdf2docx können Sie ein PDF-Dokument aus Ihrer Python-Anwendung in DOCX konvertieren. Verwenden Sie dazu den folgenden Beispielcode in Ihrer Python-Anwendung.
Bildquelle: pdf2docx Github Repo
Konvertieren Sie bestimmte Seiten einer PDF-Datei mit pdf2docx
Mit pdf2docx können Sie auch bestimmte Seiten einer PDF-Datei in DOCX konvertieren. Sie definieren die Start- und Endseiten einer PDF-Datei, die in DOCX konvertiert werden sollen, und die API konvertiert diese dann in DOCX.
Extrahieren Sie Tabellen aus einer PDF-Datei mit pdf2docx
Mit pdf2docx können Sie auch Tabellen aus einer PDF-Datei extrahieren und Text daraus abrufen. Alternativ können Sie Tabellen aus einer PDF-Datei extrahieren und diese auch als DOCX-Dateien speichern.
pdf2docx-Einschränkungen
Auch pdf2docx weist einige Einschränkungen auf, die bei der Arbeit mit der API beachtet werden sollten. Diese sind:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- Normale Leserichtung, keine Worttransformation/-rotation
- Regelbasierte Methode kann das PDF-Layout nicht zu 100 % konvertieren
pdf2docx Ressourcen
Abschluss
pdf2docx ist eine sehr leistungsstarke Bibliothek zum Konvertieren von PDF in DOCX aus Ihren Python-Anwendungen heraus. Als Anwendungsentwickler können Sie diese API verwenden, um leistungsstarke PDF-Konvertierungsanwendungen zu erstellen und diese online zu hosten, um PDF in DOCX in Ihrer Anwendung zu konvertieren.
Ähnliche Produkte
- Apache POI XWPF | Open Source Java API zum Erstellen und Ändern von DOCX-Dateien
- DocX | Open Source .NET API zum Erstellen und Ändern von DOCX-Dateien
- Docx4J | Open Source Java API zum Erstellen und Ändern von DOC- und DOCX-Dateien
- ExcelDataReader | Open Source .NET-API zum Lesen von XLS-, XLSX-, CSV- und Tabellenkalkulationsdokumenten
- FileFormat.Cells | Erstellen und Aktualisieren von Excel-Dateien mit C# .NET