Solució OCR basada en Aprenentatge Profund a Python
Aprofita docTR per realitzar una extracció i reconeixement de text precisa a partir d'imatges.
Què és l'API docTR per a Python?
docTR (Document Text Recognition) és una biblioteca OCR de codi obert basada en aprenentatge profund a Python. Proporciona detecció i reconeixement de text d'última generació per a documents escanejats, imatges i PDFs. Utilitzant arquitectures modernes d'aprenentatge profund, docTR assegura una alta precisió i eficiència en l'extracció de text mentre preserva l'estructura del document.
docTR és àmpliament utilitzat per a la digitalització de documents, extracció automàtica de dades i aplicacions de reconeixement de text basades en IA. Admet múltiples idiomes, reconeixement de text manuscrit i acceleració per GPU per a un rendiment òptim.
Funcionalitats clau de l'API docTR
- OCR avançat amb aprenentatge profund: Utilitza xarxes neuronals per a una detecció i reconeixement de text precís.
- Compatibilitat amb múltiples formats: Funciona perfectament amb imatges, PDFs i documents escanejats.
- Reconeixement de text manuscrit: Detecta i extreu text manuscrit amb una gran precisió.
- Suport per a múltiples idiomes: Admet diversos idiomes i escriptures.
- Optimitzat per a la velocitat: Extracció de text eficient amb acceleració per GPU.
- Preservació de l'estructura del document: Manté la disposició durant el reconeixement de text.
- Escalable i de codi obert: Gratuït i mantingut activament per a millores contínues.
Primer passos amb l'API docTR
Per instal·lar docTR, utilitza la següent comanda pip:
Instal·lar docTR
pip install python-doctr
Si vols habilitar l'acceleració per GPU per a un processament més ràpid, instal·la les dependències addicionals:
Instal·lar dependències per a GPU
pip install tensorflow-gpu torch torchvision
Exemples de codi per a l'extracció de text amb docTR
A continuació, es mostren diversos exemples que demostren com extreure text d'imatges i documents mitjançant docTR.
Exemple 1: Extracció de text d'una imatge
Aquest exemple mostra com carregar una imatge, aplicar OCR amb docTR i extreure el text.
Extreure text d'una imatge
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Exemple 2: Processament d'un document PDF amb múltiples pàgines
Si necessites extreure text d'un fitxer PDF amb diverses pàgines, docTR simplifica el procés.
Extreure text d'un PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Exemple 3: Reconeixement de text manuscrit
docTR també pot reconèixer text manuscrit, ideal per digitalitzar notes escrites a mà.
Extreure text manuscrit
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Conclusió
L'API docTR és una potent solució OCR basada en aprenentatge profund que simplifica l'extracció de text d'imatges, PDFs i documents manuscrits. Assegura una gran precisió mentre preserva l'estructura del document, fent-la una eina valuosa per al processament de documents mitjançant IA.
Tant si estàs treballant en la digitalització de documents com en la introducció automàtica de dades, docTR proporciona una solució flexible i eficient adaptada a les teves necessitats.