Biblioteca analitzadora de PDF Python de codi obert
Biblioteca de Python gratuïta i de codi obert per analitzar PDF i extreure text amb informació de format.
Què és pdfminer.six?
Pdfminer.six és una biblioteca i un conjunt d'eines Python de codi obert per extreure dades de documents PDF. Podeu analitzar documents PDF i extreure text, taula de continguts i continguts etiquetats, etc. dels PDF per a l'anàlisi de dades.
Aquí teniu una breu llista de les seves funcions d'anàlisi:
- Extracció de text: extreu contingut de text dels documents PDF, inclosa informació de disseny i format, com ara el color del text, la font i la ubicació, etc.
- Extracció d'informació de tipus de lletra: extreu informació sobre els tipus de lletra utilitzats als documents PDF.
Primers passos amb pdfminer.six
Necessiteu la versió 3.6.0 o superior de Python per instal·lar i utilitzar pypdf. Per tant, primer instal·leu Python i després utilitzeu les ordres següents per instal·lar pypdf a la vostra màquina mitjançant pip i entorn virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extreu text del document PDF
Podeu utilitzar la biblioteca pdfminer.six de Python per extreure text d'un document PDF mitjançant la funció extract_text tal com es mostra al fragment de codi següent:
Sortida
La següent captura de pantalla mostra el text extret del document PDF:
Extreu informació de tipus de lletra del document PDF
També podem extreure la informació sobre els tipus de lletra utilitzats al document PDF, com ara el nom i la mida de la font, iterant els elements de disseny de cada pàgina del PDF. Per exemple, comproveu el fragment de codi següent:
Sortida
La següent captura de pantalla mostra la informació del tipus de lletra extreta del document PDF:
Conclusió
En conclusió, pdfminer.six té capacitats per extreure text i altra informació dels documents PDF, però no té funcionalitats com extreure imatges i taules dels PDF.
És important tenir en compte que la biblioteca pdfminer.six admet l'extracció de pàgines PDF com a imatges, però és diferent de l'extracció d'imatges incrustades als documents PDF que no és compatible amb pdfminer.six. Tanmateix, els desenvolupadors encara poden confiar-hi per analitzar PDF a Python per extreure text per a les seves necessitats d'anàlisi de dades.