Otevřete zdrojovou knihovnu Python pro převod souborů PDF do DOCX

Prozkoumejte sílu open source knihovny Python pro převod dokumentů PDF do DOCX z vašich aplikací Python.

Co je pdf2docx?

Funkce pdf2docx API

Níže jsou uvedeny některé z hlavních funkcí pdf2docx API:

Konverze vícestránkových souborů PDF: Zvládá vícestránkové dokumenty PDF, přičemž každou stránku převede na odpovídající sekci v souboru DOCX.
Extrakce textu: Efektivně extrahuje text při zachování rozložení a formátování podobné původnímu PDF.
Rozpoznávání a převod tabulek: K rozpoznání a extrahování tabulek používá inteligentní algoritmy a převádí je na upravitelné tabulky ve formátu DOCX.
Extrakce obrázků: Extrahuje obrázky vložené do PDF a umístí je vhodně do souboru DOCX.
Styly a formátování písem: Během převodu zachová základní styly písem a formátování, jako je tučné písmo, kurzíva a podtržení.
Zachování rozvržení stránky: Cílem je zachovat původní rozvržení PDF, včetně odstavců, sloupců a dalších prvků formátování.
Vlastní nastavení převodu: Umožňuje specifikovat vlastní nastavení pro proces převodu, jako je ignorování obrázků nebo pouze extrahování textu.
Dávkové zpracování: Podporuje dávkové zpracování, které umožňuje konverzi více souborů PDF do formátu DOCX současně.
Extrakce na základě šablony: U souborů PDF s konzistentním rozvržením umožňuje definici šablon, které vedou proces extrakce, čímž se zvyšuje přesnost pro konkrétní typy dokumentů.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Začínáme s pdf2docx

Knihovnu pdf2docx si můžete stáhnout z GitHubu nebo pomocí příkazu pip install.

Instalace

Instalace pdf2docx je jednoduchá a lze ji provést z terminálu, jak je uvedeno níže:

Instalace pdf2docx


pip3 install pdf2docx

Příklady kódu pdf2docx

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Převeďte PDF do DOCX pomocí pdf2docx

Pomocí pdf2docx můžete převést dokument PDF na DOCX z vaší aplikace Python. K tomu použijte následující ukázkový kód ve vaší aplikaci Python.

Zdroj obrázku: pdf2docx Github Repo

Převeďte konkrétní stránky souboru PDF pomocí pdf2docx

pdf2docx také umožňuje převést konkrétní stránky souboru PDF do formátu DOCX. Definujete počáteční a koncovou stránku souboru PDF, který se má převést na DOCX, a poté je API převede na DOCX.

Extrahujte tabulky ze souboru PDF pomocí pdf2docx

pdf2docx také umožňuje extrahovat tabulky ze souboru PDF a získat z něj text. Případně můžete extrahovat tabulky ze souboru PDF a uložit je také do souborů DOCX.

Omezení pdf2docx

pdf2docx má také určitá omezení, která je třeba mít na paměti při práci s API. Jedná se o:

It can only process Text-based PDF file
Only Left to right language PDF files can be processed
Normální směr čtení, žádná transformace / rotace slova
Metoda založená na pravidlech nedokáže 100% převést rozvržení PDF

Zdroje pdf2docx

BEZPLATNÝ soubor šablony PDF

Závěr

pdf2docx je velmi výkonná knihovna pro převod PDF do DOCX z vašich Pythonových aplikací. Jako vývojář aplikací můžete toto API použít k vytváření výkonných aplikací pro převod PDF a jejich online hostování pro převod funkcí PDF do DOCX ve vaší aplikaci.