PDF-ből HTML/XML-be konvertáló Python-könyvtár
Ingyenes és nyílt forráskódú Python könyvtár a PDF dokumentumok HTML és XML formátumba konvertálásához.
Mi az a pdfminer.six?
A pdfminer.six egy ingyenes és nyílt forráskódú Python-könyvtár, amely PDF dokumentumok más formátumokba konvertálására használható.
Íme egy rövid lista a főbb PDF-konverziós funkciókról:
- PDF-ből HTML-be konvertálás: PDF-dokumentumok konvertálása HTML-formátumba, miközben megőrzi a dokumentum szerkezetét és elrendezését.
- PDF-ből XML-be konvertálás: Alakítsa át a PDF-fájlokat XML-formátumba, és rögzítse az összes részletet, beleértve a betűtípusokat és egyéb elemeket is.
Ismerkedés a pdfminer.six programmal
A pypdf telepítéséhez és használatához a Python 3.6.0-s vagy újabb verziója szükséges. Tehát először telepítse a Pythont, majd az alábbi parancsok segítségével telepítse a pypdf fájlt a gépére a pip és virtuális környezet a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF konvertálása HTML-be
A PDF-dokumentumot HTML formátumba konvertálhatjuk a pdfminer.six könyvtár extract_text_to_fp funkciójával (a kimeneti típus beállítása html), amint az az alábbi kódrészleten látható:
Kimenet
A következő képernyőképen a PDF-dokumentum konvertálásával létrehozott HTML-fájl látható:
PDF konvertálása XML-be
A PDF-dokumentumot XML formátumba is konvertálhatjuk a könyvtár által biztosított extract_text_to_fp függvény használatával (de a kimenet típusa xml-re van állítva), amint az az alábbi kódrészletben látható:
Kimenet
A következő képernyőképen a PDF-dokumentumból konvertált XML-tartalom látható:
Következtetés
Általában a pdfminer.six támogatja a PDF-dokumentumok XML-formátumba konvertálását probléma nélkül, de amikor egy PDF-et HTML-formátumba próbálnak konvertálni, sikerül átvinnie a szöveges tartalmat, de gyakran megzavarja az általános elrendezést.