trOCR: Rivoluziona il riconoscimento del testo con i Transformer

Ottieni una precisione a livello umano nell'estrazione di testo da contenuti stampati, manoscritti e multilingue.

Cos'è l'API trOCR?

trOCR (Optical Character Recognition basato su Transformer) è il rivoluzionario modello OCR di Microsoft che sfrutta la potenza delle architetture transformer per offrire una precisione senza pari nel riconoscimento del testo. A differenza dei sistemi OCR tradizionali che si basano esclusivamente su reti convoluzionali, trOCR combina vision transformer (ViT) con modellazione sequenza-a-sequenza, consentendogli di comprendere il contesto e le relazioni spaziali nel testo - anche per input complessi come note scritte a mano, scansioni a bassa risoluzione o script complessi.

Vantaggi chiave di trOCR:

Riconoscimento simile all'umano: Eccelle nella lettura di scrittura a mano e testo distorto
Supporto multilingue: Modelli pre-addestrati per inglese, francese, tedesco e altro
Processo end-to-end: Combina rilevamento e riconoscimento del testo
Integrazione semplice: Basato sulla libreria Transformers di Hugging Face

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Perché scegliere trOCR?

15-20% più preciso rispetto ai modelli basati su CNN
Oltre il 90% di precisione per il testo manoscritto
Pre-elaborazione minima: Robusto a variazioni di font, orientamento e rumore
Elaborazione efficiente: Ottimizzato per GPU

Installazione

trOCR richiede PyTorch o TensorFlow e la libreria Hugging Face Transformers:

Installa con PyTorch (GPU consigliato)


pip install transformers torch torchvision
pip install datasets  # Opzionale per il fine-tuning

Nota: I modelli microsoft/trocr-base richiedono ~1.5GB di spazio disco per variante (stampato/manoscritto). Assicurati di avere sufficiente spazio di archiviazione e RAM (8GB+ per l'elaborazione in batch).

Esempi di Codice

Riconoscimento di testo manoscritto

Riconoscimento scrittura a mano


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

image = Image.open("nota_manoscritta.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"Testo estratto: {text}")

Elaborazione di documenti stampati

Estrazione testo stampato


from transformers import pipeline
from PIL import Image

ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("documento.png").convert("RGB")
results = ocr(image)

for item in results:
    print(item['generated_text'])