Bibliothèque d'analyseur PDF Python Open Source

Essayez cette bibliothèque Python gratuite et open source pour analyser, lire et extraire du texte, des images, des tableaux et d'autres contenus à partir de documents PDF.

Qu'est-ce que PyMuPDF ?

PyMuPDF, également connu sous le nom de Fitz, est une bibliothèque Python open source qui fournit un ensemble complet d'outils pour travailler avec des fichiers PDF. Avec PyMuPDF, les utilisateurs peuvent effectuer efficacement des tâches telles que l'ouverture de PDF, l'extraction de texte, d'images et de tableaux, la manipulation des propriétés de page comme la rotation et le recadrage, la création de nouveaux documents PDF et la conversion de pages PDF en images.

PyMuPDF prend en charge plusieurs fonctionnalités répertoriées ci-dessous :

  • Lecture de documents PDF : PyMuPDF peut ouvrir et lire des documents PDF, vous permettant d'accéder au texte, aux images et à d'autres contenus qu'ils contiennent.
  • Extraction de texte : vous pouvez extraire du texte à partir de documents PDF, y compris le contenu textuel, les polices et les informations de mise en page.
  • Extraction d'images : vous pouvez extraire des images de documents PDF dans différents formats, tels que JPEG ou PNG.
  • Extraction de tableau : vous pouvez également extraire des tableaux à partir de documents PDF.

Dans cette revue, nous nous concentrerons principalement sur les fonctionnalités d'extraction et d'analyse de la bibliothèque. Pour une évaluation approfondie des fonctionnalités de fractionnement, de fusion et de gestion des pages, veuillez cliquer ici.

GitHub

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec PyMuPDF

Vous avez besoin de la version 3.8.0 ou supérieure de Python pour installer et utiliser PyMuPDF. Commencez donc par installer Python, puis utilisez les commandes ci-dessous pour installer PyMuPDF sur votre machine à l'aide de pip et de l'environnement virtuel.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Fenêtres


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Extraire le texte d'un PDF

Vous pouvez utiliser la bibliothèque PyMuPDF en Python pour extraire du texte d'un document PDF et effectuer une analyse de texte, comme le comptage de mots, simplement en utilisant les fonctions fournies dans la bibliothèque, comme indiqué dans le code ci-dessous :

Sortir

L'image ci-dessous montre le texte extrait et le nombre de mots dans le fichier PDF :

Extraire des images d'un PDF

Nous pouvons utiliser la bibliothèque PyMuPDF pour extraire des images d'un document PDF en Python. L'extrait de code ci-dessous ouvre le fichier PDF spécifié, extrait les images du PDF et les enregistre dans le répertoire de travail actuel :

Sortir

Voici l'image PNG extraite du document PDF

Extraire des tableaux à partir d'un PDF

Nous pouvons également utiliser la bibliothèque PyMuPDF pour traiter un document PDF et en extraire des tableaux. Consultez ci-dessous l'extrait de code qui ouvre le fichier PDF spécifié et extrait les tableaux du document PDF :

Sortir

La capture d'écran ci-dessous montre le tableau extrait du document PDF :

Insérer du texte dans un PDF

L'extrait de code Python ci-dessous illustre l'utilisation de la bibliothèque PyMuPDF pour insérer du texte dans un fichier PDF et enregistrer le PDF modifié sous le nom text.pdf :

Sortir

Le texte inséré à l'aide du code ci-dessus est mis en évidence dans la zone rouge ci-dessous :

Reconnaissance de texte PDF à l'aide de l'OCR avec PyMuPDF

We will perform OCR on the PDF file containing the following image:

Sortir

L'image ci-dessous montre le texte extrait de l'image présente dans le fichier PDF fourni :

Conclusion

En résumé, PyMuPDF est un outil professionnel avec des points forts et des points faibles évidents. Il est idéal pour des tâches telles que l'OCR et l'extraction de texte, ce qui le rend précieux pour la gestion de texte dans les PDF.

Cependant, il n'est pas très efficace pour extraire des tableaux à partir de PDF, en particulier lorsque les PDF ont une structure complexe ou un nombre de pages plus important, ce qui peut être un inconvénient pour certains utilisateurs. De plus, il peut nécessiter des bibliothèques supplémentaires telles que les fichiers de données linguistiques OCR Pandas et Tesseract dans certaines situations, ce qui ajoute de la complexité à son utilisation. Malgré ces limitations, PyMuPDF reste un choix robuste pour travailler avec du texte dans des PDF.

Produits Similaires

 Français