Bibliothèque d'analyseur PDF Python Open Source
Bibliothèque Python gratuite et open source pour analyser les PDF et extraire du texte avec des informations de formatage.
Qu'est-ce que pdfminer.six ?
Pdfminer.six est une bibliothèque et un ensemble d'outils Python open source permettant d'extraire des données à partir de documents PDF. Vous pouvez analyser des documents PDF et extraire du texte, une table des matières et des contenus balisés, etc. à partir de fichiers PDF pour l'analyse des données.
Voici une brève liste de ses fonctionnalités d’analyse :
- Extraction de texte :extrayez le contenu textuel des documents PDF, y compris les informations de mise en page et de formatage telles que la couleur du texte, la police et l'emplacement, etc.
- Extraction des informations de police : extrayez des informations sur les polices utilisées dans les documents PDF.
Premiers pas avec pdfminer.six
Vous avez besoin de la version 3.6.0 ou supérieure de Python pour installer et utiliser pypdf. Commencez donc par installer Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Fenêtres
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extraire le texte d'un document PDF
Vous pouvez utiliser la bibliothèque pdfminer.six en Python pour extraire du texte d'un document PDF en utilisant la fonction extract_text comme indiqué dans l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre le texte extrait du document PDF :
Extraire les informations de police d'un document PDF
Nous pouvons également extraire les informations sur les polices utilisées dans le document PDF, telles que le nom et la taille de la police, en parcourant les éléments de mise en page de chaque page du PDF. Par exemple, consultez l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre les informations de police extraites du document PDF :
Conclusion
En conclusion, pdfminer.six a la capacité d'extraire du texte et d'autres informations à partir de documents PDF, mais il manque de fonctionnalités telles que l'extraction d'images et de tableaux à partir de PDF.
Il est important de noter que la bibliothèque pdfminer.six prend en charge l'extraction de pages PDF sous forme d'images, mais elle est différente de l'extraction d'images intégrées dans les documents PDF, qui n'est pas prise en charge par pdfminer.six. Cependant, les développeurs peuvent toujours s'y fier pour analyser les PDF en Python afin d'extraire du texte pour leurs besoins d'analyse de données.