Soluzione OCR basata su deep learning in Python

Sfrutta docTR per un'estrazione e riconoscimento del testo preciso da immagini.

Cos'è l'API docTR per Python?

docTR (Document Text Recognition) è una libreria open source di Riconoscimento Ottico dei Caratteri (OCR) basata su deep learning per Python. Offre rilevamento e riconoscimento del testo all'avanguardia per documenti scansionati, immagini e PDF. Sfruttando architetture moderne di deep learning, docTR garantisce alta precisione ed efficienza nell'estrazione del testo preservando la struttura del documento.

docTR è ampiamente utilizzato per la digitalizzazione di documenti, l'estrazione automatizzata di dati e applicazioni di riconoscimento del testo basate sull'IA. Supporta più lingue, il riconoscimento della scrittura a mano e l'accelerazione GPU per prestazioni migliorate.

Funzionalità principali dell'API docTR

  • OCR avanzato basato su deep learning: Utilizza reti neurali per un rilevamento e riconoscimento preciso del testo.
  • Supporto per più formati: Funziona perfettamente con immagini, PDF e documenti scansionati.
  • Riconoscimento della scrittura a mano: Rileva ed estrae testo scritto a mano con notevole precisione.
  • Riconoscimento multilingua: Supporta varie lingue e script.
  • Ottimizzato per la velocità: Estrazione efficiente del testo con accelerazione GPU.
  • Preserva il layout del documento: Mantiene la struttura durante il riconoscimento del testo.
  • Scalabile e open source: Gratuito da usare e mantenuto attivamente per continui miglioramenti.

Iniziare con l'API docTR

Per installare docTR, usa il seguente comando pip:

Installa docTR


pip install python-doctr

Se vuoi abilitare l'accelerazione GPU per un'elaborazione più veloce, installa le dipendenze aggiuntive:

Installa dipendenze GPU


pip install tensorflow-gpu torch torchvision

Esempi di codice per l'estrazione del testo con l'API docTR

Di seguito sono riportati diversi esempi che dimostrano l'estrazione del testo da immagini e documenti utilizzando docTR.

API docTR per OCR

Esempio 1: Estrazione del testo da un'immagine

Questo esempio mostra come caricare un'immagine, applicare l'OCR con docTR ed estrarre il testo. Il testo estratto include la sua posizione all'interno dell'immagine, rendendolo utile per l'elaborazione strutturata di documenti.

Estrai testo da un'immagine


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Esempio 2: Elaborazione di un documento PDF multipagina

Se hai bisogno di estrarre testo da un file PDF contenente più pagine, docTR semplifica il processo. L'esempio seguente mostra come estrarre testo da ogni pagina in modo efficiente.

Estrai testo da PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Esempio 3: Riconoscimento del testo scritto a mano

docTR può anche riconoscere testo scritto a mano, rendendolo ideale per la digitalizzazione di appunti, moduli o documenti storici. Questo esempio dimostra l'estrazione del testo da un documento sintetico scritto a mano.

Estrai testo scritto a mano


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Conclusione

L'API docTR è una potente soluzione OCR basata su deep learning che semplifica l'estrazione del testo da immagini, PDF e documenti scritti a mano. Garantisce alta precisione preservando la struttura del documento, rendendolo uno strumento prezioso per l'elaborazione di documenti basata sull'IA, l'automazione e l'estrazione di dati.

Che tu stia lavorando alla digitalizzazione di documenti, all'inserimento automatizzato di dati o al riconoscimento del testo basato sull'IA, docTR offre una soluzione flessibile ed efficiente adatta alle tue esigenze.

Prodotti Simili

 Italiano