Open Source Python Library för att konvertera PDF-filer till DOCX
Utforska kraften i Python-biblioteket med öppen källkod för att konvertera PDF-dokument till DOCX från dina Python-applikationer.
Vad är pdf2docx?
pdf2docx API-funktioner
Följande är några av huvudfunktionerna i pdf2docx API:
- Konvertering av flersidiga PDF-filer: Hanterar flersidiga PDF-dokument och konverterar varje sida till en motsvarande sektion i DOCX-filen.
- Textextraktion: Extraherar text effektivt samtidigt som layouten och formateringen liknar den ursprungliga PDF-filen.
- Tabelligenkänning och -konvertering: Använder intelligenta algoritmer för att känna igen och extrahera tabeller och konvertera dem till redigerbara DOCX-formattabeller.
- Bildextraktion: Extraherar bilder som är inbäddade i PDF-filen och placerar dem på lämpligt sätt i DOCX-filen.
- Teckensnittsstilar och formatering: Behåller grundläggande teckensnittsstilar och formatering som fetstil, kursiv stil och understrykningar under konverteringen.
- Bevarande av sidlayout: Syftar till att bevara den ursprungliga layouten för PDF:en, inklusive stycken, kolumner och andra formateringselement.
- Anpassade konverteringsinställningar: Tillåter specifikation av anpassade inställningar för konverteringsprocessen, som att ignorera bilder eller bara extrahera text.
- Satsbearbetning: Stöder batchbearbetning, vilket möjliggör konvertering av flera PDF-filer till DOCX-format samtidigt.
- Mallbaserad extrahering: För PDF-filer med en konsekvent layout, tillåter definitionen av mallar för att styra extraheringsprocessen, vilket förbättrar noggrannheten för specifika dokumenttyper.
Komma igång med pdf2docx
Du kan ladda ner pdf2docx-biblioteket från GitHub eller använda kommandot pip installation.
Installation
Att installera pdf2docx är enkelt och kan göras från terminalen enligt nedan:
Installera pdf2docx
pip3 install pdf2docx
pdf2docx Kodexempel
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.Konvertera PDF till DOCX med pdf2docx
Med pdf2docx kan du konvertera ett PDF-dokument till DOCX från din Python-applikation. Använd följande exempelkod i din Python-applikation för att uppnå detta.
Bildkälla: pdf2docx Github Repo
Konvertera specifika sidor i en PDF-fil med pdf2docx
pdf2docx låter dig också konvertera specifika sidor i en PDF-fil till DOCX. Du definierar start- och slutsidorna för en PDF-fil som ska konverteras till DOCX och sedan konverterar API:et dessa till DOCX.
Extrahera tabeller från en PDF-fil med pdf2docx
pdf2docx låter dig också extrahera tabeller från en PDF-fil och hämta text från den. Alternativt kan du extrahera tabeller från PDF-fil och spara dem i DOCX-filer också.
pdf2docx Begränsningar
pdf2docx har också vissa begränsningar som bör hållas i åtanke när du arbetar med API:et. Dessa är:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- Normal läsriktning, ingen ordomvandling/rotation
- Regelbaserad metod kan inte konvertera PDF-layouten till 100 %
pdf2docx resurser
Slutsats
pdf2docx är ett mycket kraftfullt bibliotek för att konvertera PDF till DOCX från dina Python-applikationer. Som applikationsutvecklare kan du använda detta API för att skapa kraftfulla PDF-konverteringsapplikationer och vara värd för dem online för att konvertera PDF till DOCX-funktionalitet i din applikation.
Liknande Produkter
- Apache POI XWPF | Open Source Java API för att skapa och ändra DOCX-filer
- DocX | Open Source .NET API för att skapa och ändra DOCX-filer
- Docx4J | Open Source Java API för att skapa och ändra DOC- och DOCX-filer
- ExcelDataReader | Open Source .NET API för att läsa XLS-, XLSX-, CSV- och kalkylbladsdokument
- FileFormat.Cells | Ceratera och uppdatera Excel-filer med C# .NET