1. Tuotteet
  2.   Muuntaminen
  3.   Python
  4.   pdfminer.six
 
  

PDF-tiedosto HTML/XML-muunnos Python-kirjasto

Ilmainen ja avoimen lähdekoodin Python-kirjasto PDF-dokumenttien muuntamiseksi HTML- ja XML-muotoon.

Mikä on pdfminer.six?

pdfminer.six on ilmainen ja avoimen lähdekoodin Python-kirjasto, jota voidaan käyttää PDF-dokumenttien muuntamiseen muihin muotoihin.

Tässä on lyhyt luettelo sen tärkeimmistä PDF-muunnosominaisuuksista:

  • PDF:n muuntaminen HTML:ksi: Muunna PDF-dokumentit HTML-muotoon säilyttäen samalla asiakirjan rakenteen ja asettelun.
  • PDF:n muuntaminen XML-muotoon: Muunna PDF-tiedostot XML-muotoon ja tallenna kaikki yksityiskohdat, mukaan lukien fontit ja muut elementit.
GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

pdfminer.six:n käytön aloittaminen

Tarvitset Python-version 3.6.0 tai uudemman pypdf:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten pypdf koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö a>.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac käyttöjärjestelmä


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Muunna PDF HTML-muotoon

Voimme muuntaa PDF-dokumentin HTML-muotoon käyttämällä kirjaston tarjoamaa pdfminer.six-kirjaston extract_text_to_fp-toimintoa (tulostustyypiksi asetettu html), kuten alla olevassa koodinpätkässä näkyy:

Seuraava kuvakaappaus näyttää HTML-tiedoston, joka on luotu muuntamalla PDF-sokumentti:

PDF:n muuntaminen XML-muotoon

Voimme myös muuntaa PDF-dokumentin XML-muotoon käyttämällä samaa kirjaston tarjoamaa extract_text_to_fp-toimintoa (mutta tulostustyypiksi on asetettu xml), kuten alla olevassa koodinpätkässä näkyy:

Seuraavassa kuvakaappauksessa näkyy PDF-dokumentista muunnettu XML-sisältö:

Johtopäätös

Yleensä pdfminer.six tukee PDF-dokumenttien muuntamista XML-muotoon ilman ongelmia, mutta kun PDF-tiedosto yritetään muuntaa HTML-muotoon, se onnistuu siirtämään tekstisisällön, mutta häiritsee usein yleistä asettelua.

Samankaltaisia Tuotteita

 Finnish