Bibliothèque Python open-source pour l’extraction de texte à partir d’images
Utilisez PyTesseract OCR pour extraire facilement du texte imprimé et manuscrit à partir d’images.
Qu’est-ce que l’API PyTesseract pour Python ?
PyTesseract est une interface Python pour Tesseract-OCR, un puissant outil open-source permettant d’extraire du texte à partir d’images. Il permet aux développeurs de convertir des documents numérisés, des notes manuscrites et du texte contenu dans des images en un format lisible par machine avec un minimum d’effort. PyTesseract est largement utilisé pour l’automatisation, l’extraction de données, la numérisation de documents et les applications d’intelligence artificielle nécessitant une reconnaissance optique de caractères (OCR).
Cette bibliothèque est particulièrement utile pour automatiser la saisie de données, extraire du texte à partir de captures d’écran et numériser des documents imprimés. Grâce à la prise en charge de plusieurs langues et aux techniques avancées de traitement d’image, PyTesseract offre une solution efficace et flexible pour l’extraction de texte à partir d’images.
Principales fonctionnalités de l’API PyTesseract
- Conversion d’images en texte : Extraire du texte imprimé ou manuscrit à partir d’images grâce à l’OCR.
- Prise en charge de plusieurs langues : Reconnaît plus de 100 langues grâce aux modèles OCR de Tesseract.
- Compatibilité avec le prétraitement : Fonctionne avec OpenCV et PIL pour améliorer les images avant OCR.
- Extraction de texte à partir de PDF : Convertit les fichiers PDF numérisés en texte exploitable.
- Extraction de texte avec zones délimitées : Récupère du texte en indiquant sa position dans l’image.
- Traitement en lot : Permet d’exécuter l’OCR sur plusieurs images en toute efficacité.
- Compatibilité multiplateforme : Fonctionne sous Windows, macOS et Linux.
- Open-source : Gratuit et soutenu par la communauté.
Installation de PyTesseract
Avant d’utiliser PyTesseract, assurez-vous que Tesseract-OCR est installé sur votre système.
Installation
Installer PyTesseract et ses dépendances
pip install pytesseract pillow opencv-python
Installation de Tesseract-OCR sous Windows :
Installation de Tesseract-OCR (Windows)
# Téléchargez Tesseract depuis :
https://github.com/UB-Mannheim/tesseract/wiki
Installation sous Linux :
Installation de Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Exemples de code pour l’extraction de texte avec PyTesseract
Exemple 1 : Extraire du texte à partir d’une image
Extraire du texte à partir d’une image
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Exemple 2 : Extraire du texte avec des zones délimitées
Extraire du texte avec des zones délimitées
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Exemple 3 : Extraire du texte à partir d’une image en niveaux de gris
Extraire du texte à partir d’une image en niveaux de gris
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)