1. Prodotti
  2.   Conversione
  3.   Python
  4.   pdfminer.six
 
  

Libreria Python per la conversione da PDF a HTML/XML

Libreria Python gratuita e open source per convertire documenti PDF in HTML e XML.

Cos'è pdfminer.six?

pdfminer.six è una libreria Python gratuita e open source che può essere utilizzata per convertire documenti PDF in altri formati.

Ecco un breve elenco delle sue principali funzionalità di conversione PDF:

  • Conversione da PDF a HTML: converti i documenti PDF in formato HTML preservando la struttura e il layout del documento.
  • Conversione da PDF a XML: trasforma i file PDF in formato XML, acquisendo tutti i dettagli, inclusi caratteri e altri elementi.
GitHub

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Iniziare con pdfminer.six

È necessaria la versione 3.6.0 di Python o successiva per installare e utilizzare pypdf. Quindi, installa prima Python e poi usa i comandi seguenti per installare pypdf sul tuo computer usando pip e ambiente virtuale.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

finestre


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Converti PDF in HTML

Possiamo convertire un documento PDF in formato HTML utilizzando la funzione extract_text_to_fp della libreria pdfminer.six (con il tipo di output impostato su html) fornita dalla libreria, come mostrato nello snippet di codice seguente:

Produzione

La schermata seguente mostra il file HTML generato convertendo il documento PDF:

Conversione di PDF in XML

Possiamo anche convertire un documento PDF in formato XML utilizzando la stessa funzione extract_text_to_fp (ma con il tipo di output impostato su xml) fornita dalla libreria, come mostrato nel frammento di codice seguente:

Produzione

La seguente schermata mostra il contenuto XML convertito dal documento PDF:

Conclusione

Generalmente, pdfminer.six supporta la conversione di documenti PDF in formato XML senza problemi, ma quando tenta di convertire un PDF in HTML, riesce a trasferire il contenuto del testo ma spesso interrompe il layout generale.

Prodotti Simili

 Italiano