Libreria di parser PDF Python Open Source

Libreria Python gratuita e open source per analizzare i PDF ed estrarre testo con informazioni di formattazione.

Che cos'è pdfminer.six?

Pdfminer.six è una libreria Python open source e un set di strumenti per estrarre dati da documenti PDF. Puoi analizzare documenti PDF ed estrarre testo, indice e contenuti taggati ecc. dai PDF per l'analisi dei dati.

Ecco un breve elenco delle sue funzionalità di analisi:

Estrazione di testo: estrai il contenuto di testo dai documenti PDF, comprese le informazioni di layout e formattazione come colore del testo, font e posizione, ecc.
Estrazione delle informazioni sui font: estrae informazioni sui font utilizzati nei documenti PDF.

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Introduzione a pdfminer.six

Per installare e usare pypdf è necessaria la versione 3.6.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare pypdf sul tuo computer usando pip e ambiente virtuale.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Finestre


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Estrarre testo dal documento PDF

È possibile utilizzare la libreria pdfminer.six in Python per estrarre il testo da un documento PDF tramite la funzione extract_text, come mostrato nel frammento di codice seguente:

Produzione

La seguente schermata mostra il testo estratto dal documento PDF:

Estrai informazioni sui font dal documento PDF

Possiamo anche estrarre le informazioni sui font utilizzati nel documento PDF, come il nome del font e la dimensione del font, iterando attraverso gli elementi di layout di ogni pagina nel PDF. Ad esempio, controlla il frammento di codice seguente:

Produzione

La seguente schermata mostra le informazioni sul font estratte dal documento PDF:

Conclusione

In conclusione, pdfminer.six è in grado di estrarre testo e altre informazioni dai documenti PDF, ma è carente in funzionalità come l'estrazione di immagini e tabelle dai PDF.

È importante notare che la libreria pdfminer.six supporta l'estrazione di pagine PDF come immagini, ma è diversa dall'estrazione di immagini incorporate nei documenti PDF, che non è supportata da pdfminer.six. Tuttavia, gli sviluppatori possono comunque fare affidamento su di essa per analizzare i PDF in Python per estrarre testo per le loro esigenze di analisi dei dati.

Libreria di parser PDF Python Open Source

Libreria Python gratuita e open source per analizzare i PDF ed estrarre testo con informazioni di formattazione.

Che cos'è pdfminer.six?

Statistiche GitHub

Introduzione a pdfminer.six

Linux

MacOS

Finestre

Estrarre testo dal documento PDF

Produzione

Estrai informazioni sui font dal documento PDF

Produzione

Conclusione

Prodotti Simili