1. Productes
  2.   Analitzador
  3.   Python
  4.   pdfminer.six
 
  

Biblioteca analitzadora de PDF Python de codi obert

Biblioteca de Python gratuïta i de codi obert per analitzar PDF i extreure text amb informació de format.

Què és pdfminer.six?

Pdfminer.six és una biblioteca i un conjunt d'eines Python de codi obert per extreure dades de documents PDF. Podeu analitzar documents PDF i extreure text, taula de continguts i continguts etiquetats, etc. dels PDF per a l'anàlisi de dades.

Aquí teniu una breu llista de les seves funcions d'anàlisi:

  • Extracció de text: extreu contingut de text dels documents PDF, inclosa informació de disseny i format, com ara el color del text, la font i la ubicació, etc.
  • Extracció d'informació de tipus de lletra: extreu informació sobre els tipus de lletra utilitzats als documents PDF.
GitHub

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Primers passos amb pdfminer.six

Necessiteu la versió 3.6.0 o superior de Python per instal·lar i utilitzar pypdf. Per tant, primer instal·leu Python i després utilitzeu les ordres següents per instal·lar pypdf a la vostra màquina mitjançant pip i entorn virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extreu text del document PDF

Podeu utilitzar la biblioteca pdfminer.six de Python per extreure text d'un document PDF mitjançant la funció extract_text tal com es mostra al fragment de codi següent:

Sortida

La següent captura de pantalla mostra el text extret del document PDF:

Extreu informació de tipus de lletra del document PDF

També podem extreure la informació sobre els tipus de lletra utilitzats al document PDF, com ara el nom i la mida de la font, iterant els elements de disseny de cada pàgina del PDF. Per exemple, comproveu el fragment de codi següent:

Sortida

La següent captura de pantalla mostra la informació del tipus de lletra extreta del document PDF:

Conclusió

En conclusió, pdfminer.six té capacitats per extreure text i altra informació dels documents PDF, però no té funcionalitats com extreure imatges i taules dels PDF.

És important tenir en compte que la biblioteca pdfminer.six admet l'extracció de pàgines PDF com a imatges, però és diferent de l'extracció d'imatges incrustades als documents PDF que no és compatible amb pdfminer.six. Tanmateix, els desenvolupadors encara poden confiar-hi per analitzar PDF a Python per extreure text per a les seves necessitats d'anàlisi de dades.

Productes Similars

 Catalan