Biblioteca analitzadora de PDF Python de codi obert
Proveu aquesta biblioteca Python gratuïta i de codi obert per analitzar, llegir i extreure text, imatges, taules i altres continguts de documents PDF.
Què és PyMuPDF?
PyMuPDF, també conegut com Fitz, és una biblioteca Python de codi obert que proporciona un conjunt complet d'eines per treballar amb fitxers PDF. Amb PyMuPDF, els usuaris poden realitzar de manera eficient tasques com obrir PDF, extreure text, imatges i taules, manipular propietats de la pàgina com la rotació i el retall, crear nous documents PDF i convertir pàgines PDF en imatges.
PyMuPDF admet diverses funcions que s'enumeren a continuació:
- Lectura de documents PDF: PyMuPDF pot obrir i llegir documents PDF, la qual cosa us permet accedir al text, a les imatges i a altres continguts.
- Extracció de text: podeu extreure text dels documents PDF, inclòs contingut de text, tipus de lletra i informació de disseny.
- Extracció d'imatges: podeu extreure imatges de documents PDF en diversos formats, com ara JPEG o PNG.
- Extracció de taules: també podeu extreure taules de documents PDF.
En aquesta revisió, el nostre enfocament principal se centrarà en les funcions d'extracció i anàlisi de la biblioteca. Per a una avaluació en profunditat de les funcions de divisió, fusió i gestió de pàgines, feu clic aquí.
Com començar amb PyMuPDF
Necessiteu la versió 3.8.0 o superior de Python per instal·lar i utilitzar PyMuPDF. Per tant, primer instal·leu Python i després utilitzeu les ordres següents per instal·lar PyMuPDF a la vostra màquina mitjançant pip i virtual medi ambient.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Extreu text del PDF
Podeu utilitzar la biblioteca PyMuPDF de Python per extreure text d'un document PDF i realitzar anàlisis de text, com ara comptar paraules, només utilitzant les funcions proporcionades a la biblioteca, tal com es mostra al codi següent:
Sortida
La imatge següent mostra el text extret i el nombre de paraules del fitxer PDF:
Extreu imatges del PDF
Podem utilitzar la biblioteca PyMuPDF per extreure imatges d'un document PDF a Python. El fragment de codi següent obre el fitxer PDF especificat, extreu imatges del PDF i les desa al directori de treball actual:
Sortida
A continuació es mostra la imatge PNG extreta del document PDF
Extreu taules del PDF
També podem utilitzar la biblioteca PyMuPDF per processar un document PDF i extreure'n taules. Comproveu el fragment de codi següent que obre el fitxer PDF especificat i extreu taules del document PDF:
Sortida
La captura de pantalla següent mostra la taula extreta del document PDF:
Insereix text al PDF
A continuació, el fragment de codi de Python mostra l'ús de la biblioteca PyMuPDF per inserir text en un fitxer PDF i desar el PDF modificat com a text.pdf:
Sortida
El text inserit amb el codi anterior es ressalta al quadre vermell que es mostra a continuació:
Reconeixement de text PDF mitjançant OCR amb PyMuPDF
We will perform OCR on the PDF file containing the following image:Sortida
La imatge següent mostra el text extret de la imatge present al fitxer PDF proporcionat:
Conclusió
En resum, PyMuPDF és una eina professional amb alguns punts forts i febles clars. És ideal per a tasques com l'OCR i l'extracció de text, cosa que el fa valuós per a la gestió de text en PDF.
No obstant això, no és tan bo per extreure taules de PDF, especialment quan els PDF tenen una estructura complexa o més nombre de pàgines, cosa que podria ser un inconvenient per a alguns usuaris. A més, pot requerir biblioteques addicionals com Pandas i fitxers de dades d'idioma OCR Tesseract en determinades situacions, afegint complexitat al seu ús. Malgrat aquestes limitacions, PyMuPDF segueix sent una opció sòlida per treballar amb text en PDF.