PDF-tiedosto HTML/XML-muunnos Python-kirjasto
Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-dokumenttien muuntamiseksi HTML- ja XML-muotoon.
Mikä on pdfminer.six?
pdfminer.six on ilmainen ja avoimen lähdekoodin Python-kirjasto, jota voidaan käyttää PDF-dokumenttien muuntamiseen muihin muotoihin.
Tässä on lyhyt luettelo sen tärkeimmistä PDF-muunnosominaisuuksista:
- PDF:n muuntaminen HTML:ksi: Muunna PDF-dokumentit HTML-muotoon säilyttäen samalla asiakirjan rakenteen ja asettelun.
- PDF:n muuntaminen XML-muotoon: Muunna PDF-tiedostot XML-muotoon ja tallenna kaikki yksityiskohdat, mukaan lukien fontit ja muut elementit.
pdfminer.six:n käytön aloittaminen
Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac käyttöjärjestelmä
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Muunna PDF HTML-muotoon
Voimme muuntaa PDF-dokumentin HTML-muotoon käyttämällä kirjaston tarjoamaa pdfminer.six-kirjaston extract_text_to_fp-toimintoa (tulostustyypiksi asetettu html), kuten alla olevassa koodinpätkässä näkyy:
Seuraava kuvakaappaus näyttää HTML-tiedoston, joka on luotu muuntamalla PDF-sokumentti:
PDF:n muuntaminen XML-muotoon
Voimme myös muuntaa PDF-dokumentin XML-muotoon käyttämällä samaa kirjaston tarjoamaa extract_text_to_fp-toimintoa (mutta tulostustyypiksi on asetettu xml), kuten alla olevassa koodinpätkässä näkyy:
Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista muunnettu XML-sisältö:
Johtopäätös
Yleensä pdfminer.six tukee PDF-dokumenttien muuntamista XML-muotoon ilman ongelmia, mutta kun PDF-tiedosto yritetään muuntaa HTML-muotoon, se onnistuu siirtämään tekstisisällön, mutta häiritsee usein yleistä asettelua.