Libreria di parser PDF Python Open Source
Libreria Python gratuita e open source per analizzare i PDF ed estrarre testo con informazioni di formattazione.
Che cos'è pdfminer.six?
Pdfminer.six è una libreria Python open source e un set di strumenti per estrarre dati da documenti PDF. Puoi analizzare documenti PDF ed estrarre testo, indice e contenuti taggati ecc. dai PDF per l'analisi dei dati.
Ecco un breve elenco delle sue funzionalità di analisi:
- Estrazione di testo: estrai il contenuto di testo dai documenti PDF, comprese le informazioni di layout e formattazione come colore del testo, font e posizione, ecc.
- Estrazione delle informazioni sui font: estrae informazioni sui font utilizzati nei documenti PDF.
Introduzione a pdfminer.six
Per installare e usare pypdf è necessaria la versione 3.6.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare pypdf sul tuo computer usando pip e ambiente virtuale.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Finestre
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Estrarre testo dal documento PDF
È possibile utilizzare la libreria pdfminer.six in Python per estrarre il testo da un documento PDF tramite la funzione extract_text, come mostrato nel frammento di codice seguente:
Produzione
La seguente schermata mostra il testo estratto dal documento PDF:
Estrai informazioni sui font dal documento PDF
Possiamo anche estrarre le informazioni sui font utilizzati nel documento PDF, come il nome del font e la dimensione del font, iterando attraverso gli elementi di layout di ogni pagina nel PDF. Ad esempio, controlla il frammento di codice seguente:
Produzione
La seguente schermata mostra le informazioni sul font estratte dal documento PDF:
Conclusione
In conclusione, pdfminer.six è in grado di estrarre testo e altre informazioni dai documenti PDF, ma è carente in funzionalità come l'estrazione di immagini e tabelle dai PDF.
È importante notare che la libreria pdfminer.six supporta l'estrazione di pagine PDF come immagini, ma è diversa dall'estrazione di immagini incorporate nei documenti PDF, che non è supportata da pdfminer.six. Tuttavia, gli sviluppatori possono comunque fare affidamento su di essa per analizzare i PDF in Python per estrarre testo per le loro esigenze di analisi dei dati.