1. Des produits
  2.   Analyseur
  3.   Python
  4.   pdfminer.six
 
  

Bibliothèque d'analyseurs PDF Python Open Source

Bibliothèque Python gratuite et open source pour analyser des PDF et extraire du texte avec des informations de formatage.

Qu'est-ce que pdfminer.six ?

Pdfminer.six est une bibliothèque Python open source et un ensemble d'outils permettant d'extraire des données à partir de documents PDF. Vous pouvez analyser des documents PDF et extraire du texte, une table des matières et des contenus balisés, etc. à partir de PDF pour l'analyse des données.

Voici une brève liste de ses fonctionnalités d'analyse :

  • Extraction de texte : Extractez le contenu textuel des documents PDF, y compris les informations de mise en page et de formatage telles que la couleur du texte, la police et l'emplacement, etc.
  • Extraction d'informations sur les polices : Extrayez des informations sur les polices utilisées dans les documents PDF.
GitHub

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec pdfminer.six

Vous avez besoin de Python version 3.6.0 ou supérieure pour installer et utiliser pypdf. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

les fenêtres


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extraire le texte d'un document PDF

Vous pouvez utiliser la bibliothèque pdfminer.six en Python pour extraire le texte d'un document PDF à l'aide de la fonction extract_text comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le texte extrait du document PDF :

Extraire les informations de police d'un document PDF

Nous pouvons également extraire les informations sur les polices utilisées dans le document PDF, telles que le nom de la police et la taille de la police, en parcourant les éléments de mise en page de chaque page du PDF. Par exemple, vérifiez l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre les informations de police extraites du document PDF :

Conclusion

En conclusion, pdfminer.six a la capacité d'extraire du texte et d'autres informations à partir de documents PDF, mais il lui manque des fonctionnalités telles que l'extraction d'images et de tableaux à partir de PDF.

Il est important de noter que la bibliothèque pdfminer.six prend en charge l'extraction de pages PDF sous forme d'images, mais elle est différente de l'extraction d'images intégrées dans les documents PDF qui n'est pas prise en charge par pdfminer.six. Cependant, les développeurs peuvent toujours s'appuyer sur lui pour analyser des PDF en Python afin d'en extraire du texte pour leurs besoins d'analyse de données.

Produits Similaires

 Français