PDF-ből HTML/XML-be konvertáló Python-könyvtár
Ingyenes és nyílt forráskódú Python könyvtár a PDF dokumentumok HTML és XML formátumba konvertálásához.
Mi az a pdfminer.six?
A pdfminer.six egy ingyenes és nyílt forráskódú Python-könyvtár, amely PDF dokumentumok más formátumokba konvertálására használható.
Íme egy rövid lista a főbb PDF-konverziós funkciókról:
- PDF-ből HTML-be konvertálás: PDF-dokumentumok konvertálása HTML-formátumba, miközben megőrzi a dokumentum szerkezetét és elrendezését.
- PDF-ből XML-be konvertálás: Alakítsa át a PDF-fájlokat XML-formátumba, és rögzítse az összes részletet, beleértve a betűtípusokat és egyéb elemeket is.
A pdfminer.six használatának megkezdése
A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf-et a gépére a pip és virtuális környezet a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac operációs rendszer
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ablakok
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF konvertálása HTML-be
A PDF-dokumentumot HTML formátumba konvertálhatjuk a pdfminer.six könyvtár extract_text_to_fp funkciójával (a kimeneti típus beállítása html), amint az az alábbi kódrészleten látható:
A következő képernyőképen a PDF-dokumentum konvertálásával létrehozott HTML-fájl látható:
PDF konvertálása XML-be
A PDF-dokumentumot XML formátumba is konvertálhatjuk a könyvtár által biztosított extract_text_to_fp függvény használatával (de a kimenet típusa xml), amint az az alábbi kódrészletben látható:
A következő képernyőképen a PDF-dokumentumból konvertált XML-tartalom látható:
Következtetés
A pdfminer.six általában problémamentesen támogatja a PDF-dokumentumok XML-formátumba konvertálását, de amikor megpróbál egy PDF-et HTML-formátumba konvertálni, sikerül átvinnie a szöveges tartalmat, de gyakran megzavarja az általános elrendezést.