Biblioteca analitzadora de PDF Python de codi obert

Proveu aquesta biblioteca Python gratuïta i de codi obert per analitzar, llegir i extreure text, imatges, taules i altres continguts de documents PDF.

Què és PyMuPDF?

PyMuPDF, també conegut com Fitz, és una biblioteca Python de codi obert que proporciona un conjunt complet d'eines per treballar amb fitxers PDF. Amb PyMuPDF, els usuaris poden realitzar de manera eficient tasques com obrir PDF, extreure text, imatges i taules, manipular propietats de la pàgina com la rotació i el retall, crear nous documents PDF i convertir pàgines PDF en imatges.

PyMuPDF admet diverses funcions que s'enumeren a continuació:

  • Lectura de documents PDF: PyMuPDF pot obrir i llegir documents PDF, la qual cosa us permet accedir al text, a les imatges i a altres continguts.
  • Extracció de text: podeu extreure text dels documents PDF, inclòs contingut de text, tipus de lletra i informació de disseny.
  • Extracció d'imatges: podeu extreure imatges de documents PDF en diversos formats, com ara JPEG o PNG.
  • Extracció de taules: també podeu extreure taules de documents PDF.

En aquesta revisió, el nostre enfocament principal se centrarà en les funcions d'extracció i anàlisi de la biblioteca. Per a una avaluació en profunditat de les funcions de divisió, fusió i gestió de pàgines, feu clic aquí.

GitHub

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Com començar amb PyMuPDF

Necessiteu la versió 3.8.0 o superior de Python per instal·lar i utilitzar PyMuPDF. Per tant, primer instal·leu Python i després utilitzeu les ordres següents per instal·lar PyMuPDF a la vostra màquina mitjançant pip i virtual medi ambient.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Extreu text del PDF

Podeu utilitzar la biblioteca PyMuPDF de Python per extreure text d'un document PDF i realitzar anàlisis de text, com ara comptar paraules, només utilitzant les funcions proporcionades a la biblioteca, tal com es mostra al codi següent:

Sortida

La imatge següent mostra el text extret i el nombre de paraules del fitxer PDF:

Extreu imatges del PDF

Podem utilitzar la biblioteca PyMuPDF per extreure imatges d'un document PDF a Python. El fragment de codi següent obre el fitxer PDF especificat, extreu imatges del PDF i les desa al directori de treball actual:

Sortida

A continuació es mostra la imatge PNG extreta del document PDF

Extreu taules del PDF

També podem utilitzar la biblioteca PyMuPDF per processar un document PDF i extreure'n taules. Comproveu el fragment de codi següent que obre el fitxer PDF especificat i extreu taules del document PDF:

Sortida

La captura de pantalla següent mostra la taula extreta del document PDF:

Insereix text al PDF

A continuació, el fragment de codi de Python mostra l'ús de la biblioteca PyMuPDF per inserir text en un fitxer PDF i desar el PDF modificat com a text.pdf:

Sortida

El text inserit amb el codi anterior es ressalta al quadre vermell que es mostra a continuació:

Reconeixement de text PDF mitjançant OCR amb PyMuPDF

We will perform OCR on the PDF file containing the following image:

Sortida

La imatge següent mostra el text extret de la imatge present al fitxer PDF proporcionat:

Conclusió

En resum, PyMuPDF és una eina professional amb alguns punts forts i febles clars. És ideal per a tasques com l'OCR i l'extracció de text, cosa que el fa valuós per a la gestió de text en PDF.

No obstant això, no és tan bo per extreure taules de PDF, especialment quan els PDF tenen una estructura complexa o més nombre de pàgines, cosa que podria ser un inconvenient per a alguns usuaris. A més, pot requerir biblioteques addicionals com Pandas i fitxers de dades d'idioma OCR Tesseract en determinades situacions, afegint complexitat al seu ús. Malgrat aquestes limitacions, PyMuPDF segueix sent una opció sòlida per treballar amb text en PDF.

Productes Similars

 Catalan