Решение за OCR, базирано на дълбоко обучение в Python

Използвайте docTR за точно извличане и разпознаване на текст от изображения.

Какво представлява docTR API за Python?

docTR (Document Text Recognition) е отворен код OCR библиотека, базирана на дълбоко обучение в Python. Тя предоставя модерно разпознаване на текст за сканирани документи, изображения и PDF файлове. Благодарение на съвременните архитектури за дълбоко обучение, docTR гарантира висока точност и ефективност при извличането на текст, като същевременно запазва структурата на документа.

docTR се използва широко за дигитализация на документи, автоматизирано извличане на данни и AI-базирано разпознаване на текст. Поддържа множество езици, разпознаване на ръкописен текст и GPU ускорение за повишена производителност.

Основни характеристики на docTR API

Модерно OCR с дълбоко обучение: Използва невронни мрежи за прецизно разпознаване на текст.
Поддръжка на различни формати: Работи с изображения, PDF файлове и сканирани документи.
Разпознаване на ръкописен текст: Извлича ръкописен текст с висока точност.
Многоезично разпознаване: Поддържа различни езици и азбуки.
Оптимизиран за скорост: Бързо извличане на текст с помощта на GPU.
Запазване на структурата на документа: Съхранява оформлението при разпознаване на текст.
Отворен код и мащабируемост: Безплатен за използване и редовно актуализиран.

Първи стъпки с docTR API

За да инсталирате docTR, използвайте следната команда с pip:

Инсталиране на docTR


pip install python-doctr

Ако искате да активирате GPU ускорение за по-бърза обработка, инсталирайте допълнителни зависимости:

Инсталиране на GPU зависимости


pip install tensorflow-gpu torch torchvision

Примери за извличане на текст с docTR API

По-долу са представени примери за извличане на текст от изображения и документи с docTR.

Пример 1: Извличане на текст от изображение

Този пример показва как да заредите изображение, да приложите OCR с docTR и да извлечете текста.

docTR API for OCR

Извличане на текст от изображение


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Пример 2: Обработка на PDF с няколко страници

Този пример показва как да извлечете текст от PDF документ с няколко страници.

Извличане на текст от PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())