1. Termékek
  2.   Átalakítás
  3.   Python
  4.   pdfminer.six
 
  

PDF-ből HTML/XML-be konvertáló Python-könyvtár

Ingyenes és nyílt forráskódú Python könyvtár a PDF dokumentumok HTML és XML formátumba konvertálásához.

Mi az a pdfminer.six?

A pdfminer.six egy ingyenes és nyílt forráskódú Python-könyvtár, amely PDF dokumentumok más formátumokba konvertálására használható.

Íme egy rövid lista a főbb PDF-konverziós funkciókról:

  • PDF-ből HTML-be konvertálás: PDF-dokumentumok konvertálása HTML-formátumba, miközben megőrzi a dokumentum szerkezetét és elrendezését.
  • PDF-ből XML-be konvertálás: Alakítsa át a PDF-fájlokat XML-formátumba, és rögzítse az összes részletet, beleértve a betűtípusokat és egyéb elemeket is.
GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

A pdfminer.six használatának megkezdése

A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf-et a gépére a pip és virtuális környezet a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac operációs rendszer


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ablakok


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF konvertálása HTML-be

A PDF-dokumentumot HTML formátumba konvertálhatjuk a pdfminer.six könyvtár extract_text_to_fp funkciójával (a kimeneti típus beállítása html), amint az az alábbi kódrészleten látható:

A következő képernyőképen a PDF-dokumentum konvertálásával létrehozott HTML-fájl látható:

PDF konvertálása XML-be

A PDF-dokumentumot XML formátumba is konvertálhatjuk a könyvtár által biztosított extract_text_to_fp függvény használatával (de a kimenet típusa xml), amint az az alábbi kódrészletben látható:

A következő képernyőképen a PDF-dokumentumból konvertált XML-tartalom látható:

Következtetés

A pdfminer.six általában problémamentesen támogatja a PDF-dokumentumok XML-formátumba konvertálását, de amikor megpróbál egy PDF-et HTML-formátumba konvertálni, sikerül átvinnie a szöveges tartalmat, de gyakran megzavarja az általános elrendezést.

Hasonló Termékek

 Hungarian