Libreria Python per la conversione da PDF a HTML/XML
Libreria Python gratuita e open source per convertire documenti PDF in HTML e XML.
Che cos'è pdfminer.six?
pdfminer.six è una libreria Python gratuita e open source che può essere utilizzata per convertire documenti PDF in altri formati.
Ecco un breve elenco delle sue principali funzionalità di conversione PDF:
- Conversione da PDF a HTML: converte i documenti PDF in formato HTML preservandone la struttura e il layout.
- Conversione da PDF a XML: trasforma i file PDF in formato XML, catturandone tutti i dettagli, inclusi i font e altri elementi.
Introduzione a pdfminer.six
Per installare e usare pypdf è necessaria la versione 3.6.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare pypdf sul tuo computer usando pip e ambiente virtuale.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Finestre
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Convertire PDF in HTML
Possiamo convertire un documento PDF in formato HTML utilizzando la funzione extract_text_to_fp della libreria pdfminer.six (con tipo di output impostato su html) fornita dalla libreria, come mostrato nel frammento di codice seguente:
Produzione
La seguente schermata mostra il file HTML generato convertendo il documento PDF:
Conversione da PDF a XML
Possiamo anche convertire un documento PDF in formato XML utilizzando la stessa funzione extract_text_to_fp (ma con il tipo di output impostato su xml) fornita dalla libreria, come mostrato nel frammento di codice seguente:
Produzione
La seguente schermata mostra il contenuto XML convertito dal documento PDF:
Conclusione
In genere, pdfminer.six supporta la conversione di documenti PDF in formato XML senza problemi, ma quando si tenta di convertire un PDF in HTML, riesce a trasferire il contenuto di testo ma spesso interrompe il layout generale.