1. Prodotti
  2.   Analizzatore
  3.   Python
  4.   pdfminer.six
 
  

Libreria di parser PDF Python open source

Libreria Python gratuita e open source per analizzare PDF ed estrarre testo con informazioni di formattazione.

Cos'è pdfminer.six?

Pdfminer.six è una libreria Python open source e un set di strumenti per l'estrazione di dati da documenti PDF. È possibile analizzare documenti PDF ed estrarre testo, sommario, contenuti con tag ecc. dai PDF per l'analisi dei dati.

Ecco un breve elenco delle sue funzionalità di analisi:

  • Estrazione del testo: estrae il contenuto del testo dai documenti PDF, comprese le informazioni sul layout e sulla formattazione come il colore del testo, il carattere, la posizione, ecc.
  • Estrazione delle informazioni sui caratteri: estrae informazioni sui caratteri utilizzati nei documenti PDF.
GitHub

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Iniziare con pdfminer.six

È necessaria la versione 3.6.0 di Python o successiva per installare e utilizzare pypdf. Quindi, installa prima Python e poi usa i comandi seguenti per installare pypdf sul tuo computer usando pip e ambiente virtuale.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

finestre


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Estrai testo da un documento PDF

Puoi utilizzare la libreria pdfminer.six in Python per estrarre testo da un documento PDF utilizzando la funzione extract_text come mostrato nello snippet di codice seguente:

Produzione

La schermata seguente mostra il testo estratto dal documento PDF:

Estrai informazioni sui caratteri dal documento PDF

Possiamo anche estrarre le informazioni sui caratteri utilizzati nel documento PDF come il nome del carattere e la dimensione del carattere scorrendo gli elementi di layout di ciascuna pagina nel PDF. Ad esempio, controlla lo snippet di codice seguente:

Produzione

La seguente schermata mostra le informazioni sui caratteri estratte dal documento PDF:

Conclusione

In conclusione, pdfminer.six ha la capacità di estrarre testo e altre informazioni dai documenti PDF ma manca di funzionalità come l'estrazione di immagini e tabelle dai PDF.

È importante notare che la libreria pdfminer.six supporta l'estrazione di pagine PDF come immagini ma è diversa dall'estrazione di immagini incorporate nei documenti PDF che non è supportata da pdfminer.six. Tuttavia, gli sviluppatori possono comunque fare affidamento su di esso per analizzare i PDF in Python ed estrarre testo per le loro esigenze di analisi dei dati.

Prodotti Simili

 Italiano