Nyílt forráskódú Python Library a PDF fájlok DOCX formátumba konvertálásához

Fedezze fel a nyílt forráskódú Python-könyvtár erejét, amellyel PDF-dokumentumokat konvertálhat DOCX-formátumba Python-alkalmazásaiból.

Mi az a pdf2docx?

pdf2docx API-szolgáltatások

Az alábbiakban bemutatjuk a pdf2docx API néhány fő funkcióját:

  • Többoldalas PDF-ek konvertálása: Többoldalas PDF-dokumentumokat kezel, minden oldalt a DOCX-fájl megfelelő szakaszává alakítva.
  • Szövegkivonás: Hatékonyan bontja ki a szöveget, miközben megőrzi az eredeti PDF-hez hasonló elrendezést és formázást.
  • Táblázatfelismerés és -konverzió: Intelligens algoritmusokat használ a táblázatok felismerésére és kibontására, valamint szerkeszthető DOCX formátumú táblázatokká alakítására.
  • Képkivonás: Kivonja a PDF-be ágyazott képeket, és megfelelően elhelyezi a DOCX-fájlban.
  • Betűstílusok és -formázás: Megőrzi az alapvető betűstílusokat és -formázásokat, például a félkövért, a dőlt betűt és az aláhúzást az átalakítás során.
  • Oldalelrendezés megőrzése: Célja, hogy megőrizze a PDF eredeti elrendezését, beleértve a bekezdéseket, oszlopokat és egyéb formázási elemeket.
  • Egyéni konverziós beállítások: Lehetővé teszi egyéni beállítások megadását a konverziós folyamathoz, például a képek figyelmen kívül hagyását vagy csak a szöveg kinyerését.
  • Kötegelt feldolgozás: Támogatja a kötegelt feldolgozást, lehetővé téve több PDF egyidejű konvertálását DOCX formátumba.
  • Sablonalapú kibontás: A következetes elrendezésű PDF-fájlok esetében lehetővé teszi a sablonok meghatározását, amelyek irányítják a kibontási folyamatot, javítva az egyes dokumentumtípusok pontosságát.
GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

A pdf2docx használatának megkezdése

Letöltheti a pdf2docx könyvtárat a GitHubról vagy a pip install paranccsal.

Telepítés

A pdf2docx telepítése egyszerű, és terminálról is elvégezhető az alábbiak szerint:

A pdf2docx telepítése


pip3 install pdf2docx

Példák a pdf2docx kódra

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

A PDF konvertálása DOCX formátumba a pdf2docx segítségével

A pdf2docx segítségével PDF-dokumentumot konvertálhat DOCX-re a Python-alkalmazásból. Ennek eléréséhez használja a következő mintakódot a Python alkalmazásban.

Kép forrása: pdf2docx Github Repo

Konvertálja a PDF-fájl meghatározott oldalait a pdf2docx segítségével

A pdf2docx lehetővé teszi a PDF-fájlok bizonyos oldalainak DOCX-formátumba való konvertálását is. Meghatározza a DOCX-re konvertálandó PDF-fájl kezdő és záró oldalát, majd az API ezeket DOCX-vé alakítja.

Kivonja a táblázatokat egy PDF-fájlból a pdf2docx segítségével

A pdf2docx segítségével táblázatokat is kivonhat egy PDF-fájlból, és szöveget nyerhet ki belőle. Alternatív megoldásként kibonthatja a táblázatokat PDF-fájlból, és elmentheti őket DOCX-fájlokba is.

pdf2docx Korlátozások

A pdf2docx bizonyos korlátozásokkal is rendelkezik, amelyeket szem előtt kell tartani, amikor az API-val dolgozik. Ezek a következők:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • Normál olvasási irány, nincs szó transzformáció/forgatás
  • A szabályalapú módszer nem tudja 100%-osan konvertálni a PDF-elrendezést

pdf2docx források

  • INGYENES PDF-sablonfájl
  • Következtetés

    A pdf2docx egy nagyon hatékony könyvtár a PDF-ek DOCX formátumba konvertálásához a Python-alkalmazásokon belül. Alkalmazásfejlesztőként ezt az API-t használhatja hatékony PDF-konverziós alkalmazások létrehozására, és online tárhelyszolgáltatásra, amellyel PDF-ből DOCX-funkciókat konvertálhat az alkalmazásban.

    Hasonló Termékek

     Hungarian