Biblioteca analitzadora de PDF Python de codi obert

Biblioteca de Python gratuïta i de codi obert per analitzar PDF i extreure text amb informació de format.

Què és pdfminer.six?

Pdfminer.six és una biblioteca i un conjunt d'eines Python de codi obert per extreure dades de documents PDF. Podeu analitzar documents PDF i extreure text, taula de continguts i continguts etiquetats, etc. dels PDF per a l'anàlisi de dades.

Aquí teniu una breu llista de les seves funcions d'anàlisi:

Extracció de text: extreu contingut de text dels documents PDF, inclosa informació de disseny i format, com ara el color del text, la font i la ubicació, etc.
Extracció d'informació de tipus de lletra: extreu informació sobre els tipus de lletra utilitzats als documents PDF.

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Primers passos amb pdfminer.six

Necessiteu la versió 3.6.0 o superior de Python per instal·lar i utilitzar pypdf. Per tant, primer instal·leu Python i després utilitzeu les ordres següents per instal·lar pypdf a la vostra màquina mitjançant pip i entorn virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extreu text del document PDF

Podeu utilitzar la biblioteca pdfminer.six de Python per extreure text d'un document PDF mitjançant la funció extract_text tal com es mostra al fragment de codi següent:

Sortida

La següent captura de pantalla mostra el text extret del document PDF:

Extreu informació de tipus de lletra del document PDF

També podem extreure la informació sobre els tipus de lletra utilitzats al document PDF, com ara el nom i la mida de la font, iterant els elements de disseny de cada pàgina del PDF. Per exemple, comproveu el fragment de codi següent:

Sortida

La següent captura de pantalla mostra la informació del tipus de lletra extreta del document PDF:

Conclusió

En conclusió, pdfminer.six té capacitats per extreure text i altra informació dels documents PDF, però no té funcionalitats com extreure imatges i taules dels PDF.

És important tenir en compte que la biblioteca pdfminer.six admet l'extracció de pàgines PDF com a imatges, però és diferent de l'extracció d'imatges incrustades als documents PDF que no és compatible amb pdfminer.six. Tanmateix, els desenvolupadors encara poden confiar-hi per analitzar PDF a Python per extreure text per a les seves necessitats d'anàlisi de dades.

Biblioteca analitzadora de PDF Python de codi obert

Biblioteca de Python gratuïta i de codi obert per analitzar PDF i extreure text amb informació de format.

Què és pdfminer.six?

Estadístiques de GitHub

Primers passos amb pdfminer.six

Linux

MacOS

Windows

Extreu text del document PDF

Sortida

Extreu informació de tipus de lletra del document PDF

Sortida

Conclusió

Productes Similars