Solution OCR basée sur l'apprentissage profond en Python

Exploitez docTR pour une extraction et reconnaissance de texte précises à partir d'images.

Qu'est-ce que l'API docTR pour Python ?

docTR (Document Text Recognition) est une bibliothèque OCR open source basée sur l'apprentissage profond en Python. Elle offre une détection et une reconnaissance de texte de pointe pour les documents numérisés, les images et les fichiers PDF. Grâce à des architectures modernes d'apprentissage profond, docTR garantit une haute précision et une efficacité optimale tout en préservant la structure des documents.

docTR est largement utilisé pour la numérisation de documents, l'extraction automatisée de données et les applications de reconnaissance de texte basées sur l'IA. Il prend en charge plusieurs langues, la reconnaissance de l'écriture manuscrite et l'accélération GPU pour des performances améliorées.

Principales fonctionnalités de l'API docTR

OCR avancé basé sur l'apprentissage profond : Utilise des réseaux neuronaux pour une détection et reconnaissance précises du texte.
Support multi-format : Fonctionne avec des images, des fichiers PDF et des documents numérisés.
Reconnaissance de l'écriture manuscrite : Détecte et extrait le texte manuscrit avec une grande précision.
Reconnaissance multilingue : Prend en charge plusieurs langues et alphabets.
Optimisé pour la vitesse : Extraction de texte efficace avec accélération GPU.
Préserve la mise en page : Conserve la structure des documents lors de la reconnaissance.
Évolutif et open source : Libre d'utilisation et maintenu activement pour des améliorations continues.

Premiers pas avec l'API docTR

Pour installer docTR, utilisez la commande pip suivante :

Installer docTR


pip install python-doctr

Pour activer l'accélération GPU pour un traitement plus rapide, installez les dépendances supplémentaires :

Installer les dépendances GPU


pip install tensorflow-gpu torch torchvision

Exemples de code pour l'extraction de texte avec docTR

Voici plusieurs exemples démontrant l'extraction de texte à partir d'images et de documents en utilisant docTR.

API docTR pour l'OCR

Exemple 1 : Extraire du texte à partir d'une image

Extraire du texte d'une image


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemple 2 : Traitement d'un document PDF multi-pages

Extraire du texte d'un PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemple 3 : Reconnaissance de texte manuscrit

Extraire du texte manuscrit


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Conclusion

L'API docTR est une solution OCR puissante basée sur l'apprentissage profond qui simplifie l'extraction de texte à partir d'images, de fichiers PDF et de documents manuscrits. Elle garantit une haute précision tout en préservant la structure des documents, ce qui en fait un outil précieux pour le traitement documentaire basé sur l'IA, l'automatisation et l'extraction de données.

Que vous travailliez sur la numérisation de documents, la saisie automatisée de données ou la reconnaissance de texte basée sur l'IA, docTR offre une solution flexible et efficace adaptée à vos besoins.