Libreria di parser PDF Python open source
Libreria Python gratuita e open source per analizzare PDF ed estrarre testo con informazioni di formattazione.
Cos'è pdfminer.six?
Pdfminer.six è una libreria Python open source e un set di strumenti per l'estrazione di dati da documenti PDF. È possibile analizzare documenti PDF ed estrarre testo, sommario, contenuti con tag ecc. dai PDF per l'analisi dei dati.
Ecco un breve elenco delle sue funzionalità di analisi:
- Estrazione del testo: estrae il contenuto del testo dai documenti PDF, comprese le informazioni sul layout e sulla formattazione come il colore del testo, il carattere, la posizione, ecc.
- Estrazione delle informazioni sui caratteri: estrae informazioni sui caratteri utilizzati nei documenti PDF.
Iniziare con pdfminer.six
È necessaria la versione 3.6.0 di Python o successiva per installare e utilizzare pypdf. Quindi, installa prima Python e poi usa i comandi seguenti per installare pypdf sul tuo computer usando pip e ambiente virtuale.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
finestre
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Estrai testo da un documento PDF
Puoi utilizzare la libreria pdfminer.six in Python per estrarre testo da un documento PDF utilizzando la funzione extract_text come mostrato nello snippet di codice seguente:
Produzione
La schermata seguente mostra il testo estratto dal documento PDF:
Estrai informazioni sui caratteri dal documento PDF
Possiamo anche estrarre le informazioni sui caratteri utilizzati nel documento PDF come il nome del carattere e la dimensione del carattere scorrendo gli elementi di layout di ciascuna pagina nel PDF. Ad esempio, controlla lo snippet di codice seguente:
Produzione
La seguente schermata mostra le informazioni sui caratteri estratte dal documento PDF:
Conclusione
In conclusione, pdfminer.six ha la capacità di estrarre testo e altre informazioni dai documenti PDF ma manca di funzionalità come l'estrazione di immagini e tabelle dai PDF.
È importante notare che la libreria pdfminer.six supporta l'estrazione di pagine PDF come immagini ma è diversa dall'estrazione di immagini incorporate nei documenti PDF che non è supportata da pdfminer.six. Tuttavia, gli sviluppatori possono comunque fare affidamento su di esso per analizzare i PDF in Python ed estrarre testo per le loro esigenze di analisi dei dati.