Solució OCR basada en Aprenentatge Profund a Python

Aprofita docTR per realitzar una extracció i reconeixement de text precisa a partir d'imatges.

Què és l'API docTR per a Python?

docTR (Document Text Recognition) és una biblioteca OCR de codi obert basada en aprenentatge profund a Python. Proporciona detecció i reconeixement de text d'última generació per a documents escanejats, imatges i PDFs. Utilitzant arquitectures modernes d'aprenentatge profund, docTR assegura una alta precisió i eficiència en l'extracció de text mentre preserva l'estructura del document.

docTR és àmpliament utilitzat per a la digitalització de documents, extracció automàtica de dades i aplicacions de reconeixement de text basades en IA. Admet múltiples idiomes, reconeixement de text manuscrit i acceleració per GPU per a un rendiment òptim.

Funcionalitats clau de l'API docTR

OCR avançat amb aprenentatge profund: Utilitza xarxes neuronals per a una detecció i reconeixement de text precís.
Compatibilitat amb múltiples formats: Funciona perfectament amb imatges, PDFs i documents escanejats.
Reconeixement de text manuscrit: Detecta i extreu text manuscrit amb una gran precisió.
Suport per a múltiples idiomes: Admet diversos idiomes i escriptures.
Optimitzat per a la velocitat: Extracció de text eficient amb acceleració per GPU.
Preservació de l'estructura del document: Manté la disposició durant el reconeixement de text.
Escalable i de codi obert: Gratuït i mantingut activament per a millores contínues.

Primer passos amb l'API docTR

Per instal·lar docTR, utilitza la següent comanda pip:

Instal·lar docTR


pip install python-doctr

Si vols habilitar l'acceleració per GPU per a un processament més ràpid, instal·la les dependències addicionals:

Instal·lar dependències per a GPU


pip install tensorflow-gpu torch torchvision

Exemples de codi per a l'extracció de text amb docTR

A continuació, es mostren diversos exemples que demostren com extreure text d'imatges i documents mitjançant docTR.

Exemple 1: Extracció de text d'una imatge

Aquest exemple mostra com carregar una imatge, aplicar OCR amb docTR i extreure el text.

Extreure text d'una imatge


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemple 2: Processament d'un document PDF amb múltiples pàgines

Si necessites extreure text d'un fitxer PDF amb diverses pàgines, docTR simplifica el procés.

Extreure text d'un PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemple 3: Reconeixement de text manuscrit

docTR també pot reconèixer text manuscrit, ideal per digitalitzar notes escrites a mà.

Extreure text manuscrit


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Conclusió

L'API docTR és una potent solució OCR basada en aprenentatge profund que simplifica l'extracció de text d'imatges, PDFs i documents manuscrits. Assegura una gran precisió mentre preserva l'estructura del document, fent-la una eina valuosa per al processament de documents mitjançant IA.

Tant si estàs treballant en la digitalització de documents com en la introducció automàtica de dades, docTR proporciona una solució flexible i eficient adaptada a les teves necessitats.