Bibliothèque Python open-source pour l’extraction de texte à partir d’images

Utilisez PyTesseract OCR pour extraire facilement du texte imprimé et manuscrit à partir d’images.

Qu’est-ce que l’API PyTesseract pour Python ?

PyTesseract est une interface Python pour Tesseract-OCR, un puissant outil open-source permettant d’extraire du texte à partir d’images. Il permet aux développeurs de convertir des documents numérisés, des notes manuscrites et du texte contenu dans des images en un format lisible par machine avec un minimum d’effort. PyTesseract est largement utilisé pour l’automatisation, l’extraction de données, la numérisation de documents et les applications d’intelligence artificielle nécessitant une reconnaissance optique de caractères (OCR).

Cette bibliothèque est particulièrement utile pour automatiser la saisie de données, extraire du texte à partir de captures d’écran et numériser des documents imprimés. Grâce à la prise en charge de plusieurs langues et aux techniques avancées de traitement d’image, PyTesseract offre une solution efficace et flexible pour l’extraction de texte à partir d’images.

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Principales fonctionnalités de l’API PyTesseract

Conversion d’images en texte : Extraire du texte imprimé ou manuscrit à partir d’images grâce à l’OCR.
Prise en charge de plusieurs langues : Reconnaît plus de 100 langues grâce aux modèles OCR de Tesseract.
Compatibilité avec le prétraitement : Fonctionne avec OpenCV et PIL pour améliorer les images avant OCR.
Extraction de texte à partir de PDF : Convertit les fichiers PDF numérisés en texte exploitable.
Extraction de texte avec zones délimitées : Récupère du texte en indiquant sa position dans l’image.
Traitement en lot : Permet d’exécuter l’OCR sur plusieurs images en toute efficacité.
Compatibilité multiplateforme : Fonctionne sous Windows, macOS et Linux.
Open-source : Gratuit et soutenu par la communauté.

Installation de PyTesseract

Avant d’utiliser PyTesseract, assurez-vous que Tesseract-OCR est installé sur votre système.

Installation

Installer PyTesseract et ses dépendances


pip install pytesseract pillow opencv-python

Installation de Tesseract-OCR sous Windows :

Installation de Tesseract-OCR (Windows)


# Téléchargez Tesseract depuis :
https://github.com/UB-Mannheim/tesseract/wiki

Installation sous Linux :

Installation de Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Exemples de code pour l’extraction de texte avec PyTesseract

Exemple 1 : Extraire du texte à partir d’une image

Extraire du texte à partir d’une image


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Exemple 2 : Extraire du texte avec des zones délimitées

Extraire du texte avec des zones délimitées


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Exemple 3 : Extraire du texte à partir d’une image en niveaux de gris

Extraire du texte à partir d’une image en niveaux de gris


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)