PDF-tiedosto HTML/XML-muunnos Python-kirjasto

Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-dokumenttien muuntamiseksi HTML- ja XML-muotoon.

Mikä on pdfminer.six?

pdfminer.six on ilmainen ja avoimen lähdekoodin Python-kirjasto, jota voidaan käyttää PDF-dokumenttien muuntamiseen muihin muotoihin.

Tässä on lyhyt luettelo sen tärkeimmistä PDF-muunnosominaisuuksista:

PDF:n muuntaminen HTML:ksi: Muunna PDF-dokumentit HTML-muotoon säilyttäen samalla asiakirjan rakenteen ja asettelun.
PDF:n muuntaminen XML-muotoon: Muunna PDF-tiedostot XML-muotoon ja tallenna kaikki yksityiskohdat, mukaan lukien fontit ja muut elementit.

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

pdfminer.six:n käytön aloittaminen

Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Muunna PDF HTML-muotoon

Voimme muuntaa PDF-dokumentin HTML-muotoon käyttämällä kirjaston tarjoamaa pdfminer.six-kirjaston extract_text_to_fp-toimintoa (tulosteen tyypiksi asetettu html), kuten alla olevassa koodinpätkässä näkyy:

Lähtö

Seuraava kuvakaappaus näyttää HTML-tiedoston, joka on luotu muuntamalla PDF-dokumentti:

PDF:n muuntaminen XML-muotoon

Voimme myös muuntaa PDF-dokumentin XML-muotoon käyttämällä samaa kirjaston tarjoamaa extract_text_to_fp-toimintoa (mutta tulostustyypiksi on asetettu xml), kuten alla olevassa koodinpätkässä näkyy:

Lähtö

Seuraava kuvakaappaus näyttää PDF-dokumentista muunnetun XML-sisällön:

Johtopäätös

Yleensä pdfminer.six tukee PDF-dokumenttien muuntamista XML-muotoon ilman ongelmia, mutta kun PDF-tiedosto yritetään muuntaa HTML-muotoon, se onnistuu siirtämään tekstisisällön, mutta häiritsee usein yleistä asettelua.

PDF-tiedosto HTML/XML-muunnos Python-kirjasto

Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-dokumenttien muuntamiseksi HTML- ja XML-muotoon.

Mikä on pdfminer.six?

GitHub-tilastot

pdfminer.six:n käytön aloittaminen

Linux

MacOS

Windows

Muunna PDF HTML-muotoon

Lähtö

PDF:n muuntaminen XML-muotoon

Lähtö

Johtopäätös

Samankaltaisia Tuotteita