Open Source Python Library för att konvertera PDF-filer till DOCX

Utforska kraften i Python-biblioteket med öppen källkod för att konvertera PDF-dokument till DOCX från dina Python-applikationer.

Vad är pdf2docx?

pdf2docx API-funktioner

Följande är några av huvudfunktionerna i pdf2docx API:

Konvertering av flersidiga PDF-filer: Hanterar flersidiga PDF-dokument och konverterar varje sida till en motsvarande sektion i DOCX-filen.
Textextraktion: Extraherar text effektivt samtidigt som layouten och formateringen liknar den ursprungliga PDF-filen.
Tabelligenkänning och -konvertering: Använder intelligenta algoritmer för att känna igen och extrahera tabeller och konvertera dem till redigerbara DOCX-formattabeller.
Bildextraktion: Extraherar bilder som är inbäddade i PDF-filen och placerar dem på lämpligt sätt i DOCX-filen.
Teckensnittsstilar och formatering: Behåller grundläggande teckensnittsstilar och formatering som fetstil, kursiv stil och understrykningar under konverteringen.
Bevarande av sidlayout: Syftar till att bevara den ursprungliga layouten för PDF:en, inklusive stycken, kolumner och andra formateringselement.
Anpassade konverteringsinställningar: Tillåter specifikation av anpassade inställningar för konverteringsprocessen, som att ignorera bilder eller bara extrahera text.
Satsbearbetning: Stöder batchbearbetning, vilket möjliggör konvertering av flera PDF-filer till DOCX-format samtidigt.
Mallbaserad extrahering: För PDF-filer med en konsekvent layout, tillåter definitionen av mallar för att styra extraheringsprocessen, vilket förbättrar noggrannheten för specifika dokumenttyper.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Komma igång med pdf2docx

Du kan ladda ner pdf2docx-biblioteket från GitHub eller använda kommandot pip installation.

Installation

Att installera pdf2docx är enkelt och kan göras från terminalen enligt nedan:

Installera pdf2docx


pip3 install pdf2docx

pdf2docx Kodexempel

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Konvertera PDF till DOCX med pdf2docx

Med pdf2docx kan du konvertera ett PDF-dokument till DOCX från din Python-applikation. Använd följande exempelkod i din Python-applikation för att uppnå detta.

Bildkälla: pdf2docx Github Repo

Konvertera specifika sidor i en PDF-fil med pdf2docx

pdf2docx låter dig också konvertera specifika sidor i en PDF-fil till DOCX. Du definierar start- och slutsidorna för en PDF-fil som ska konverteras till DOCX och sedan konverterar API:et dessa till DOCX.

Extrahera tabeller från en PDF-fil med pdf2docx

pdf2docx låter dig också extrahera tabeller från en PDF-fil och hämta text från den. Alternativt kan du extrahera tabeller från PDF-fil och spara dem i DOCX-filer också.

pdf2docx Begränsningar

pdf2docx har också vissa begränsningar som bör hållas i åtanke när du arbetar med API:et. Dessa är:

It can only process Text-based PDF file
Only Left to right language PDF files can be processed
Normal läsriktning, ingen ordomvandling/rotation
Regelbaserad metod kan inte konvertera PDF-layouten till 100 %

pdf2docx resurser

GRATIS PDF-mallfil

Slutsats

pdf2docx är ett mycket kraftfullt bibliotek för att konvertera PDF till DOCX från dina Python-applikationer. Som applikationsutvecklare kan du använda detta API för att skapa kraftfulla PDF-konverteringsapplikationer och vara värd för dem online för att konvertera PDF till DOCX-funktionalitet i din applikation.