Bibliothèque d'analyseurs PDF Python Open Source

Essayez cette bibliothèque Python gratuite et open source pour analyser, lire et extraire du texte, des images, des tableaux et d'autres contenus à partir de documents PDF.

Qu'est-ce que PyMuPDF ?

PyMuPDF, également connu sous le nom de Fitz, est une bibliothèque Python open source qui fournit un ensemble complet d'outils pour travailler avec des fichiers PDF. Avec PyMuPDF, les utilisateurs peuvent effectuer efficacement des tâches telles que l'ouverture de PDF, l'extraction de texte, d'images et de tableaux, la manipulation des propriétés de page telles que la rotation et le recadrage, la création de nouveaux documents PDF et la conversion de pages PDF en images.

PyMuPDF prend en charge plusieurs fonctionnalités répertoriées ci-dessous :

  • Lecture de documents PDF : PyMuPDF peut ouvrir et lire des documents PDF, vous permettant d'accéder au texte, aux images et à d'autres contenus qu'ils contiennent.
  • Extraction de texte : vous pouvez extraire du texte à partir de documents PDF, y compris le contenu du texte, les polices et les informations de mise en page.
  • Extraction d'images : vous pouvez extraire des images de documents PDF dans différents formats, tels que JPEG ou PNG.
  • Extraction de tableaux : vous pouvez également extraire des tableaux à partir de documents PDF.

Dans cette revue, notre objectif principal sera les fonctionnalités d’extraction et d’analyse de la bibliothèque. Pour une évaluation approfondie des fonctionnalités de fractionnement, de fusion et de gestion de pages, veuillez cliquez ici.

GitHub

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec PyMuPDF

Vous avez besoin de Python version 3.8.0 ou supérieure pour installer et utiliser PyMuPDF. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer PyMuPDF sur votre machine en utilisant pip et environnement virtuel.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac OS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

les fenêtres


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Extraire le texte d'un PDF

Vous pouvez utiliser la bibliothèque PyMuPDF en Python pour extraire le texte d'un document PDF et effectuer une analyse de texte, comme compter les mots, simplement en utilisant les fonctions fournies dans la bibliothèque, comme indiqué dans le code ci-dessous :

Sortir

L'image ci-dessous montre le texte extrait et le nombre de mots dans le fichier PDF :

Extraire des images d'un PDF

Nous pouvons utiliser la bibliothèque PyMuPDF pour extraire des images d'un document PDF en Python. L'extrait de code ci-dessous ouvre le fichier PDF spécifié, extrait les images du PDF et les enregistre dans le répertoire de travail actuel :

Sortir

Voici l'image PNG extraite du document PDF

Extraire des tableaux d'un PDF

Nous pouvons également utiliser la bibliothèque PyMuPDF pour traiter un document PDF et en extraire des tableaux. Vérifiez ci-dessous l'extrait de code qui ouvre le fichier PDF spécifié et extrait les tableaux du document PDF :

Sortir

La capture d'écran ci-dessous montre le tableau extrait du document PDF :

Insérer du texte dans un PDF

L'extrait de code Python ci-dessous montre l'utilisation de la bibliothèque PyMuPDF pour insérer du texte dans un fichier PDF et enregistrer le PDF modifié sous text.pdf :

Sortir

Le texte inséré à l'aide du code ci-dessus est mis en évidence dans la case rouge ci-dessous :

Reconnaissance de texte PDF à l'aide de l'OCR avec PyMuPDF

We will perform OCR on the PDF file containing the following image:

Sortir

L'image ci-dessous montre le texte extrait de l'image présente dans le fichier PDF fourni :

Conclusion

En résumé, PyMuPDF est un outil professionnel avec des forces et des faiblesses évidentes. Il est idéal pour des tâches telles que l'OCR et l'extraction de texte, ce qui le rend précieux pour la gestion du texte dans les PDF.

Cependant, il n'est pas très efficace pour extraire des tableaux à partir de PDF, en particulier lorsque les PDF ont une structure complexe ou un plus grand nombre de pages, ce qui peut constituer un inconvénient pour certains utilisateurs. En outre, il peut nécessiter des bibliothèques supplémentaires telles que les fichiers de données en langage Pandas et Tesseract OCR dans certaines situations, ce qui ajoute de la complexité à son utilisation. Malgré ces limitations, PyMuPDF reste un choix solide pour travailler avec du texte dans des PDF.

Produits Similaires

 Français