Полноценный OCR-пайплайн с Keras и TensorFlow

Используйте Keras-OCR для простого, но мощного распознавания текста на Python.

Что такое API Keras-OCR?

Keras-OCR — это высокоуровневая библиотека Python с открытым исходным кодом, предназначенная для упрощения задач оптического распознавания символов (OCR) с использованием возможностей Keras и TensorFlow. В отличие от традиционных OCR-систем, требующих сложной настройки, Keras-OCR предоставляет готовое решение с предобученными моделями для обнаружения текста (с использованием алгоритма CRAFT) и распознавания текста (через CRNN-модель). Это позволяет разработчикам извлекать текст из изображений, сканированных документов или даже рукописных заметок всего несколькими строками кода.

Библиотека оптимизирована для реальных сценариев использования, включая:

Оцифровку документов: Преобразование бумажных документов или PDF в текст с возможностью поиска
Автоматизацию ввода данных: Извлечение текста из счетов, квитанций или форм
Инструменты доступности: Генерация альтернативного текста для изображений в веб-приложениях
Анализ соцсетей: Обработка текста в мемах или пользовательском контенте

Со встроенной поддержкой пакетной обработки и опциональным ускорением на GPU, Keras-OCR обеспечивает баланс между удобством использования и производительностью, что делает его идеальным как для прототипирования, так и для промышленного использования.

Статистика GitHub

Имя:
Язык:
Звезды:
Вилки:
Лицензия:
Репозиторий последний раз обновлялся на

Ключевые особенности Keras-OCR

Предобученные модели: Включает CRAFT (детектор) и CRNN (распознаватель) для немедленного использования
Простая настройка: Минимальные зависимости (Keras, TensorFlow, OpenCV)
Пакетная обработка: Параллельная обработка нескольких изображений
Кастомизация: Дообучение моделей на своих данных
GPU не требуется: Работает на CPU, но ускоряется на GPU
Координаты текста: Возвращает текст с координатами для пространственного анализа
Открытый исходный код: Бесплатно, разрабатывается сообществом с лицензией MIT

Установка

Установите Keras-OCR через pip (требуется Python 3.6+):

Установка Keras-OCR


pip install keras-ocr

Для поддержки GPU убедитесь, что установлен TensorFlow с GPU:

Установка TensorFlow GPU


pip install tensorflow-gpu

Примеры кода

Практические примеры извлечения текста из изображений с помощью Keras-OCR:

Распознавание текста с Keras-OCR

Пример 1: Базовое обнаружение и распознавание текста

Как использовать готовый пайплайн для извлечения текста:

Базовый OCR-пайплайн


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Пример 2: Пакетная обработка

Одновременная обработка нескольких изображений:

Пакетная обработка


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Пример 3: Визуализация bounding box

Отрисовка обнаруженного текста на изображении:

Визуализация результатов


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Заключение

Keras-OCR упрощает извлечение текста благодаря готовому пайплайну, что делает его отличным выбором для разработчиков, которым нужно быстрое и точное OCR без сложной настройки. Интеграция с Keras и TensorFlow позволяет кастомизировать решение, а пакетная обработка обеспечивает масштабируемость.

Независимо от того, создаёте ли вы сканеры документов, автоматизируете ввод данных или анализируете контент соцсетей, Keras-OCR предлагает лёгкое, но мощное решение.