Libreria Python Open-Source per l’Estrazione di Testo dalle Immagini

Utilizza PyTesseract OCR per estrarre facilmente testo stampato e scritto a mano dalle immagini.

Cos’è PyTesseract API per Python?

PyTesseract è un wrapper Python per Tesseract-OCR, un potente strumento open-source per l’estrazione di testo dalle immagini. Consente agli sviluppatori di convertire documenti scansionati, note scritte a mano e testo presente nelle immagini in un formato leggibile dalle macchine con il minimo sforzo. PyTesseract è ampiamente utilizzato nell’automazione, nell’estrazione di dati, nella digitalizzazione di documenti e nelle applicazioni di intelligenza artificiale (AI) che richiedono il riconoscimento ottico dei caratteri (OCR).

Questa libreria è particolarmente utile per automatizzare l’inserimento dei dati, riconoscere il testo dagli screenshot e digitalizzare documenti stampati. Grazie al supporto per più lingue e alle tecniche avanzate di elaborazione delle immagini, PyTesseract offre una soluzione efficiente e flessibile per l’estrazione di testo dalle immagini.

Caratteristiche Principali di PyTesseract API

Conversione da immagine a testo: Estrai testo stampato o scritto a mano dalle immagini utilizzando l’OCR.
Supporto per più lingue: Riconosce oltre 100 lingue grazie ai modelli OCR di Tesseract.
Compatibilità con la pre-elaborazione: Funziona con OpenCV e PIL per migliorare le immagini prima dell’OCR.
Estrazione di testo da PDF: Converte i file PDF scansionati in testo ricercabile.
Estrazione di testo con riquadri delimitatori: Recupera il testo insieme alla sua posizione nell’immagine.
Elaborazione batch: Esegue l’OCR in modo efficiente su più immagini.
Compatibilità multipiattaforma: Funziona su Windows, macOS e Linux.
Open-source: Gratuito e supportato dalla community.

Installazione di PyTesseract

Prima di utilizzare PyTesseract, assicurati che Tesseract-OCR sia installato sul tuo sistema.

Installazione

Installa PyTesseract e le dipendenze


pip install pytesseract pillow opencv-python

Installazione di Tesseract-OCR su Windows:

Installazione di Tesseract-OCR (Windows)


# Scarica Tesseract da:
https://github.com/UB-Mannheim/tesseract/wiki

Installazione su Linux:

Installazione di Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Esempi di Codice per l’Estrazione di Testo con PyTesseract API

Esempio 1: Estrarre testo da un’immagine

Estrarre testo da un’immagine


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Esempio 2: Estrarre testo con riquadri delimitatori

Estrarre testo con riquadri delimitatori


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Esempio 3: Estrarre testo da un’immagine in scala di grigi

Estrarre testo da un’immagine in scala di grigi


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)