Libreria Python Open-Source per l’Estrazione di Testo dalle Immagini
Utilizza PyTesseract OCR per estrarre facilmente testo stampato e scritto a mano dalle immagini.
Cos’è PyTesseract API per Python?
PyTesseract è un wrapper Python per Tesseract-OCR, un potente strumento open-source per l’estrazione di testo dalle immagini. Consente agli sviluppatori di convertire documenti scansionati, note scritte a mano e testo presente nelle immagini in un formato leggibile dalle macchine con il minimo sforzo. PyTesseract è ampiamente utilizzato nell’automazione, nell’estrazione di dati, nella digitalizzazione di documenti e nelle applicazioni di intelligenza artificiale (AI) che richiedono il riconoscimento ottico dei caratteri (OCR).
Questa libreria è particolarmente utile per automatizzare l’inserimento dei dati, riconoscere il testo dagli screenshot e digitalizzare documenti stampati. Grazie al supporto per più lingue e alle tecniche avanzate di elaborazione delle immagini, PyTesseract offre una soluzione efficiente e flessibile per l’estrazione di testo dalle immagini.
Caratteristiche Principali di PyTesseract API
- Conversione da immagine a testo: Estrai testo stampato o scritto a mano dalle immagini utilizzando l’OCR.
- Supporto per più lingue: Riconosce oltre 100 lingue grazie ai modelli OCR di Tesseract.
- Compatibilità con la pre-elaborazione: Funziona con OpenCV e PIL per migliorare le immagini prima dell’OCR.
- Estrazione di testo da PDF: Converte i file PDF scansionati in testo ricercabile.
- Estrazione di testo con riquadri delimitatori: Recupera il testo insieme alla sua posizione nell’immagine.
- Elaborazione batch: Esegue l’OCR in modo efficiente su più immagini.
- Compatibilità multipiattaforma: Funziona su Windows, macOS e Linux.
- Open-source: Gratuito e supportato dalla community.
Installazione di PyTesseract
Prima di utilizzare PyTesseract, assicurati che Tesseract-OCR sia installato sul tuo sistema.
Installazione
Installa PyTesseract e le dipendenze
pip install pytesseract pillow opencv-python
Installazione di Tesseract-OCR su Windows:
Installazione di Tesseract-OCR (Windows)
# Scarica Tesseract da:
https://github.com/UB-Mannheim/tesseract/wiki
Installazione su Linux:
Installazione di Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Esempi di Codice per l’Estrazione di Testo con PyTesseract API
Esempio 1: Estrarre testo da un’immagine
Estrarre testo da un’immagine
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Esempio 2: Estrarre testo con riquadri delimitatori
Estrarre testo con riquadri delimitatori
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Esempio 3: Estrarre testo da un’immagine in scala di grigi
Estrarre testo da un’immagine in scala di grigi
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)