1. Termékek
  2.   Átalakítás
  3.   Python
  4.   pdfminer.six
 
  

PDF-ből HTML/XML-be konvertáló Python-könyvtár

Ingyenes és nyílt forráskódú Python könyvtár a PDF dokumentumok HTML és XML formátumba konvertálásához.

Mi az a pdfminer.six?

A pdfminer.six egy ingyenes és nyílt forráskódú Python-könyvtár, amely PDF dokumentumok más formátumokba konvertálására használható.

Íme egy rövid lista a főbb PDF-konverziós funkciókról:

  • PDF-ből HTML-be konvertálás: PDF-dokumentumok konvertálása HTML-formátumba, miközben megőrzi a dokumentum szerkezetét és elrendezését.
  • PDF-ből XML-be konvertálás: Alakítsa át a PDF-fájlokat XML-formátumba, és rögzítse az összes részletet, beleértve a betűtípusokat és egyéb elemeket is.
GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

Ismerkedés a pdfminer.six programmal

A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf fájlt a gépére a pip és virtuális környezet a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF konvertálása HTML-be

A PDF-dokumentumot HTML formátumba konvertálhatjuk a pdfminer.six könyvtár extract_text_to_fp funkciójával (a kimeneti típus beállítása html), amint az az alábbi kódrészleten látható:

Kimenet

A következő képernyőképen a PDF-dokumentum konvertálásával létrehozott HTML-fájl látható:

PDF konvertálása XML-be

A PDF-dokumentumot XML formátumba is konvertálhatjuk a könyvtár által biztosított extract_text_to_fp függvény használatával (de a kimenet típusa xml-re van állítva), amint az az alábbi kódrészletben látható:

Kimenet

A következő képernyőképen a PDF-dokumentumból konvertált XML-tartalom látható:

Következtetés

Általában a pdfminer.six támogatja a PDF-dokumentumok XML-formátumba konvertálását probléma nélkül, de amikor egy PDF-et HTML-formátumba próbálnak konvertálni, sikerül átvinnie a szöveges tartalmat, de gyakran megzavarja az általános elrendezést.

Hasonló Termékek

 Hungarian