Полноценный OCR-пайплайн с Keras и TensorFlow
Используйте Keras-OCR для простого, но мощного распознавания текста на Python.
Что такое API Keras-OCR?
Keras-OCR — это высокоуровневая библиотека Python с открытым исходным кодом, предназначенная для упрощения задач оптического распознавания символов (OCR) с использованием возможностей Keras и TensorFlow. В отличие от традиционных OCR-систем, требующих сложной настройки, Keras-OCR предоставляет готовое решение с предобученными моделями для обнаружения текста (с использованием алгоритма CRAFT) и распознавания текста (через CRNN-модель). Это позволяет разработчикам извлекать текст из изображений, сканированных документов или даже рукописных заметок всего несколькими строками кода.
Библиотека оптимизирована для реальных сценариев использования, включая:
- Оцифровку документов: Преобразование бумажных документов или PDF в текст с возможностью поиска
- Автоматизацию ввода данных: Извлечение текста из счетов, квитанций или форм
- Инструменты доступности: Генерация альтернативного текста для изображений в веб-приложениях
- Анализ соцсетей: Обработка текста в мемах или пользовательском контенте
Со встроенной поддержкой пакетной обработки и опциональным ускорением на GPU, Keras-OCR обеспечивает баланс между удобством использования и производительностью, что делает его идеальным как для прототипирования, так и для промышленного использования.
Ключевые особенности Keras-OCR
- Предобученные модели: Включает CRAFT (детектор) и CRNN (распознаватель) для немедленного использования
- Простая настройка: Минимальные зависимости (Keras, TensorFlow, OpenCV)
- Пакетная обработка: Параллельная обработка нескольких изображений
- Кастомизация: Дообучение моделей на своих данных
- GPU не требуется: Работает на CPU, но ускоряется на GPU
- Координаты текста: Возвращает текст с координатами для пространственного анализа
- Открытый исходный код: Бесплатно, разрабатывается сообществом с лицензией MIT
Установка
Установите Keras-OCR через pip (требуется Python 3.6+):
Установка Keras-OCR
pip install keras-ocr
Для поддержки GPU убедитесь, что установлен TensorFlow с GPU:
Установка TensorFlow GPU
pip install tensorflow-gpu
Примеры кода
Практические примеры извлечения текста из изображений с помощью Keras-OCR:
Пример 1: Базовое обнаружение и распознавание текста
Как использовать готовый пайплайн для извлечения текста:
Базовый OCR-пайплайн
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Пример 2: Пакетная обработка
Одновременная обработка нескольких изображений:
Пакетная обработка
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Пример 3: Визуализация bounding box
Отрисовка обнаруженного текста на изображении:
Визуализация результатов
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Заключение
Keras-OCR упрощает извлечение текста благодаря готовому пайплайну, что делает его отличным выбором для разработчиков, которым нужно быстрое и точное OCR без сложной настройки. Интеграция с Keras и TensorFlow позволяет кастомизировать решение, а пакетная обработка обеспечивает масштабируемость.
Независимо от того, создаёте ли вы сканеры документов, автоматизируете ввод данных или анализируете контент соцсетей, Keras-OCR предлагает лёгкое, но мощное решение.
Похожие Продукты
- docTR API - Оптическое распознавание символов (OCR) на Python
- EasyOCR API – Полноценное оптическое распознавание символов на Python
- PyMuPDF Python API | Расширенный анализ и извлечение PDF-файлов
- pypdf | Библиотека Python для эффективного анализа PDF-файлов
- PyTesseract API – Извлечение текста из изображений с помощью Python