Bibliothèque d'analyseurs PDF Python Open Source
Bibliothèque Python gratuite et open source pour analyser des PDF et extraire du texte avec des informations de formatage.
Qu'est-ce que pdfminer.six ?
Pdfminer.six est une bibliothèque Python open source et un ensemble d'outils permettant d'extraire des données à partir de documents PDF. Vous pouvez analyser des documents PDF et extraire du texte, une table des matières et des contenus balisés, etc. à partir de PDF pour l'analyse des données.
Voici une brève liste de ses fonctionnalités d'analyse :
- Extraction de texte : Extractez le contenu textuel des documents PDF, y compris les informations de mise en page et de formatage telles que la couleur du texte, la police et l'emplacement, etc.
- Extraction d'informations sur les polices : Extrayez des informations sur les polices utilisées dans les documents PDF.
Premiers pas avec pdfminer.six
Vous avez besoin de Python version 3.6.0 ou supérieure pour installer et utiliser pypdf. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
les fenêtres
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extraire le texte d'un document PDF
Vous pouvez utiliser la bibliothèque pdfminer.six en Python pour extraire le texte d'un document PDF à l'aide de la fonction extract_text comme indiqué dans l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre le texte extrait du document PDF :
Extraire les informations de police d'un document PDF
Nous pouvons également extraire les informations sur les polices utilisées dans le document PDF, telles que le nom de la police et la taille de la police, en parcourant les éléments de mise en page de chaque page du PDF. Par exemple, vérifiez l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre les informations de police extraites du document PDF :
Conclusion
En conclusion, pdfminer.six a la capacité d'extraire du texte et d'autres informations à partir de documents PDF, mais il lui manque des fonctionnalités telles que l'extraction d'images et de tableaux à partir de PDF.
Il est important de noter que la bibliothèque pdfminer.six prend en charge l'extraction de pages PDF sous forme d'images, mais elle est différente de l'extraction d'images intégrées dans les documents PDF qui n'est pas prise en charge par pdfminer.six. Cependant, les développeurs peuvent toujours s'appuyer sur lui pour analyser des PDF en Python afin d'en extraire du texte pour leurs besoins d'analyse de données.