Libreria Python per la conversione da PDF a HTML/XML

Libreria Python gratuita e open source per convertire documenti PDF in HTML e XML.

Che cos'è pdfminer.six?

pdfminer.six è una libreria Python gratuita e open source che può essere utilizzata per convertire documenti PDF in altri formati.

Ecco un breve elenco delle sue principali funzionalità di conversione PDF:

Conversione da PDF a HTML: converte i documenti PDF in formato HTML preservandone la struttura e il layout.
Conversione da PDF a XML: trasforma i file PDF in formato XML, catturandone tutti i dettagli, inclusi i font e altri elementi.

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Introduzione a pdfminer.six

Per installare e usare pypdf è necessaria la versione 3.6.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare pypdf sul tuo computer usando pip e ambiente virtuale.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Finestre


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Convertire PDF in HTML

Possiamo convertire un documento PDF in formato HTML utilizzando la funzione extract_text_to_fp della libreria pdfminer.six (con tipo di output impostato su html) fornita dalla libreria, come mostrato nel frammento di codice seguente:

Produzione

La seguente schermata mostra il file HTML generato convertendo il documento PDF:

Conversione da PDF a XML

Possiamo anche convertire un documento PDF in formato XML utilizzando la stessa funzione extract_text_to_fp (ma con il tipo di output impostato su xml) fornita dalla libreria, come mostrato nel frammento di codice seguente:

Produzione

La seguente schermata mostra il contenuto XML convertito dal documento PDF:

Conclusione

In genere, pdfminer.six supporta la conversione di documenti PDF in formato XML senza problemi, ma quando si tenta di convertire un PDF in HTML, riesce a trasferire il contenuto di testo ma spesso interrompe il layout generale.

Libreria Python per la conversione da PDF a HTML/XML

Libreria Python gratuita e open source per convertire documenti PDF in HTML e XML.

Che cos'è pdfminer.six?

Statistiche GitHub

Introduzione a pdfminer.six

Linux

MacOS

Finestre

Convertire PDF in HTML

Produzione

Conversione da PDF a XML

Produzione

Conclusione

Prodotti Simili