Libreria Python per la conversione da PDF a HTML/XML
Libreria Python gratuita e open source per convertire documenti PDF in HTML e XML.
Cos'è pdfminer.six?
pdfminer.six è una libreria Python gratuita e open source che può essere utilizzata per convertire documenti PDF in altri formati.
Ecco un breve elenco delle sue principali funzionalità di conversione PDF:
- Conversione da PDF a HTML: converti i documenti PDF in formato HTML preservando la struttura e il layout del documento.
- Conversione da PDF a XML: trasforma i file PDF in formato XML, acquisendo tutti i dettagli, inclusi caratteri e altri elementi.
Iniziare con pdfminer.six
È necessaria la versione 3.6.0 di Python o successiva per installare e utilizzare pypdf. Quindi, installa prima Python e poi usa i comandi seguenti per installare pypdf sul tuo computer usando pip e ambiente virtuale.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
finestre
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Converti PDF in HTML
Possiamo convertire un documento PDF in formato HTML utilizzando la funzione extract_text_to_fp della libreria pdfminer.six (con il tipo di output impostato su html) fornita dalla libreria, come mostrato nello snippet di codice seguente:
Produzione
La schermata seguente mostra il file HTML generato convertendo il documento PDF:
Conversione di PDF in XML
Possiamo anche convertire un documento PDF in formato XML utilizzando la stessa funzione extract_text_to_fp (ma con il tipo di output impostato su xml) fornita dalla libreria, come mostrato nel frammento di codice seguente:
Produzione
La seguente schermata mostra il contenuto XML convertito dal documento PDF:
Conclusione
Generalmente, pdfminer.six supporta la conversione di documenti PDF in formato XML senza problemi, ma quando tenta di convertire un PDF in HTML, riesce a trasferire il contenuto del testo ma spesso interrompe il layout generale.