Bibliothèque d'analyseur PDF Python Open Source

Bibliothèque Python gratuite et open source pour analyser les PDF et extraire du texte avec des informations de formatage.

Qu'est-ce que pdfminer.six ?

Pdfminer.six est une bibliothèque et un ensemble d'outils Python open source permettant d'extraire des données à partir de documents PDF. Vous pouvez analyser des documents PDF et extraire du texte, une table des matières et des contenus balisés, etc. à partir de fichiers PDF pour l'analyse des données.

Voici une brève liste de ses fonctionnalités d’analyse :

Extraction de texte :extrayez le contenu textuel des documents PDF, y compris les informations de mise en page et de formatage telles que la couleur du texte, la police et l'emplacement, etc.
Extraction des informations de police : extrayez des informations sur les polices utilisées dans les documents PDF.

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec pdfminer.six

Vous avez besoin de la version 3.6.0 ou supérieure de Python pour installer et utiliser pypdf. Commencez donc par installer Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Fenêtres


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extraire le texte d'un document PDF

Vous pouvez utiliser la bibliothèque pdfminer.six en Python pour extraire du texte d'un document PDF en utilisant la fonction extract_text comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le texte extrait du document PDF :

Extraire les informations de police d'un document PDF

Nous pouvons également extraire les informations sur les polices utilisées dans le document PDF, telles que le nom et la taille de la police, en parcourant les éléments de mise en page de chaque page du PDF. Par exemple, consultez l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre les informations de police extraites du document PDF :

Conclusion

En conclusion, pdfminer.six a la capacité d'extraire du texte et d'autres informations à partir de documents PDF, mais il manque de fonctionnalités telles que l'extraction d'images et de tableaux à partir de PDF.

Il est important de noter que la bibliothèque pdfminer.six prend en charge l'extraction de pages PDF sous forme d'images, mais elle est différente de l'extraction d'images intégrées dans les documents PDF, qui n'est pas prise en charge par pdfminer.six. Cependant, les développeurs peuvent toujours s'y fier pour analyser les PDF en Python afin d'extraire du texte pour leurs besoins d'analyse de données.

Bibliothèque d'analyseur PDF Python Open Source

Bibliothèque Python gratuite et open source pour analyser les PDF et extraire du texte avec des informations de formatage.

Qu'est-ce que pdfminer.six ?

Statistiques GitHub

Premiers pas avec pdfminer.six

Linux

MacOS

Fenêtres

Extraire le texte d'un document PDF

Sortir

Extraire les informations de police d'un document PDF

Sortir

Conclusion

Produits Similaires