Решение за OCR, базирано на дълбоко обучение в Python
Използвайте docTR за точно извличане и разпознаване на текст от изображения.
Какво представлява docTR API за Python?
docTR (Document Text Recognition) е отворен код OCR библиотека, базирана на дълбоко обучение в Python. Тя предоставя модерно разпознаване на текст за сканирани документи, изображения и PDF файлове. Благодарение на съвременните архитектури за дълбоко обучение, docTR гарантира висока точност и ефективност при извличането на текст, като същевременно запазва структурата на документа.
docTR се използва широко за дигитализация на документи, автоматизирано извличане на данни и AI-базирано разпознаване на текст. Поддържа множество езици, разпознаване на ръкописен текст и GPU ускорение за повишена производителност.
Основни характеристики на docTR API
- Модерно OCR с дълбоко обучение: Използва невронни мрежи за прецизно разпознаване на текст.
- Поддръжка на различни формати: Работи с изображения, PDF файлове и сканирани документи.
- Разпознаване на ръкописен текст: Извлича ръкописен текст с висока точност.
- Многоезично разпознаване: Поддържа различни езици и азбуки.
- Оптимизиран за скорост: Бързо извличане на текст с помощта на GPU.
- Запазване на структурата на документа: Съхранява оформлението при разпознаване на текст.
- Отворен код и мащабируемост: Безплатен за използване и редовно актуализиран.
Първи стъпки с docTR API
За да инсталирате docTR, използвайте следната команда с pip:
Инсталиране на docTR
pip install python-doctr
Ако искате да активирате GPU ускорение за по-бърза обработка, инсталирайте допълнителни зависимости:
Инсталиране на GPU зависимости
pip install tensorflow-gpu torch torchvision
Примери за извличане на текст с docTR API
По-долу са представени примери за извличане на текст от изображения и документи с docTR.
Пример 1: Извличане на текст от изображение
Този пример показва как да заредите изображение, да приложите OCR с docTR и да извлечете текста.
Извличане на текст от изображение
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Пример 2: Обработка на PDF с няколко страници
Този пример показва как да извлечете текст от PDF документ с няколко страници.
Извличане на текст от PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())