Otevřete zdrojovou knihovnu Python pro převod souborů PDF do DOCX
Prozkoumejte sílu open source knihovny Python pro převod dokumentů PDF do DOCX z vašich aplikací Python.
Co je pdf2docx?
Funkce pdf2docx API
Níže jsou uvedeny některé z hlavních funkcí pdf2docx API:
- Konverze vícestránkových souborů PDF: Zvládá vícestránkové dokumenty PDF, přičemž každou stránku převede na odpovídající sekci v souboru DOCX.
- Extrakce textu: Efektivně extrahuje text při zachování rozložení a formátování podobné původnímu PDF.
- Rozpoznávání a převod tabulek: K rozpoznání a extrahování tabulek používá inteligentní algoritmy a převádí je na upravitelné tabulky ve formátu DOCX.
- Extrakce obrázků: Extrahuje obrázky vložené do PDF a umístí je vhodně do souboru DOCX.
- Styly a formátování písem: Během převodu zachová základní styly písem a formátování, jako je tučné písmo, kurzíva a podtržení.
- Zachování rozvržení stránky: Cílem je zachovat původní rozvržení PDF, včetně odstavců, sloupců a dalších prvků formátování.
- Vlastní nastavení převodu: Umožňuje specifikovat vlastní nastavení pro proces převodu, jako je ignorování obrázků nebo pouze extrahování textu.
- Dávkové zpracování: Podporuje dávkové zpracování, které umožňuje konverzi více souborů PDF do formátu DOCX současně.
- Extrakce na základě šablony: U souborů PDF s konzistentním rozvržením umožňuje definici šablon, které vedou proces extrakce, čímž se zvyšuje přesnost pro konkrétní typy dokumentů.
Začínáme s pdf2docx
Knihovnu pdf2docx si můžete stáhnout z GitHubu nebo pomocí příkazu pip install.
Instalace
Instalace pdf2docx je jednoduchá a lze ji provést z terminálu, jak je uvedeno níže:
Instalace pdf2docx
pip3 install pdf2docx
Příklady kódu pdf2docx
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.Převeďte PDF do DOCX pomocí pdf2docx
Pomocí pdf2docx můžete převést dokument PDF na DOCX z vaší aplikace Python. K tomu použijte následující ukázkový kód ve vaší aplikaci Python.
Zdroj obrázku: pdf2docx Github Repo
Převeďte konkrétní stránky souboru PDF pomocí pdf2docx
pdf2docx také umožňuje převést konkrétní stránky souboru PDF do formátu DOCX. Definujete počáteční a koncovou stránku souboru PDF, který se má převést na DOCX, a poté je API převede na DOCX.
Extrahujte tabulky ze souboru PDF pomocí pdf2docx
pdf2docx také umožňuje extrahovat tabulky ze souboru PDF a získat z něj text. Případně můžete extrahovat tabulky ze souboru PDF a uložit je také do souborů DOCX.
Omezení pdf2docx
pdf2docx má také určitá omezení, která je třeba mít na paměti při práci s API. Jedná se o:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- Normální směr čtení, žádná transformace / rotace slova
- Metoda založená na pravidlech nedokáže 100% převést rozvržení PDF
Zdroje pdf2docx
Závěr
pdf2docx je velmi výkonná knihovna pro převod PDF do DOCX z vašich Pythonových aplikací. Jako vývojář aplikací můžete toto API použít k vytváření výkonných aplikací pro převod PDF a jejich online hostování pro převod funkcí PDF do DOCX ve vaší aplikaci.
Podobné Produkty
- Apache POI XWPF | Open Source Java API pro vytváření a úpravu souborů DOCX
- DocX | Open Source .NET API pro vytváření a úpravu souborů DOCX
- Docx4J | Open Source Java API pro vytváření a úpravu souborů DOC a DOCX
- ExcelDataReader | Open Source .NET API pro čtení XLS, XLSX, CSV a tabulkových dokumentů
- FileFormat.Cells | Vytvářejte a aktualizujte soubory Excel pomocí C# .NET