Комплексен OCR процес с Keras и TensorFlow

Използвайте Keras-OCR за просто, но мощно разпознаване на текст в Python.

Какво е Keras-OCR API?

Keras-OCR е високо ниво, с отворен код Python библиотека, предназначена да опрости задачите за оптично разпознаване на знаци (OCR), използвайки силата на Keras и TensorFlow. За разлика от традиционните OCR системи, които изискват сложна конфигурация, Keras-OCR предлага готов процес с предварително обучени модели за откриване на текст (чрез алгоритъма CRAFT) и разпознаване на текст (чрез CRNN модел). Тази комбинация позволява на разработчиците да извличат текст от изображения, сканирани документи или дори ръкописни бележки само с няколко реда код.

Библиотеката е оптимизирана за реални случаи на употреба, включително:

Дигитализация на документи: Преобразувайте хартиени документи или PDF файлове в текст за търсене.
Автоматизиран въвеждане на данни: Извличане на текст от фактури, разписки или формуляри.
Инструменти за достъпност: Генериране на алтернативен текст за изображения в уеб приложения.
Анализ на социални мрежи: Обработка на текст, вграден в мемета или потребителски генерирано съдържание.

С вградена поддръжка за групова обработка и незадължително GPU ускорение, Keras-OCR балансира лекота на използване с производителност, което го прави идеален както за прототипиране, така и за продуктиви среди.

Статистика на GitHub

Име:
език:
звезди:
Вилици:
Разрешително:
Хранилището е последно актуализирано на

Основни характеристики на Keras-OCR

Предварително обучени модели: Включва CRAFT (детектор) и CRNN (разпознаващ) за незабавна употреба.
Лесна настройка: Минимални зависимости (Keras, TensorFlow, OpenCV).
Групова обработка: Обработвайте множество изображения паралелно за ефективност.
Персонализирано обучение: Настройвайте моделите с вашите собствени данни.
Не е задължително GPU: Работи на CPU, но се ускорява с GPU.
Изход с координати: Връща текст с координати за пространствен анализ.
Отворен код: Безплатна, разработена от общността и с MIT лиценз.

Инсталация

Инсталирайте Keras-OCR чрез pip (изисква Python 3.6+):

Инсталиране на Keras-OCR


pip install keras-ocr

За поддръжка на GPU, уверете се, че TensorFlow с GPU е инсталиран:

Инсталиране на TensorFlow GPU


pip install tensorflow-gpu

Примери с код

По-долу са дадени практически примери за извличане на текст от изображения с Keras-OCR.

Keras-OCR откриване на текст

Пример 1: Основно откриване и разпознаване на текст

Този пример показва как да използвате готовия процес за извличане на текст от изображение:

Основен OCR процес


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Пример 2: Групова обработка

Обработвайте няколко изображения наведнъж за ефективност:

Групова обработка


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Пример 3: Визуализация на открития текст

Начертайте открития текст върху оригиналното изображение:

Визуализиране на резултати


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Заключение

Keras-OCR опростява извличането на текст с готовия си процес, което го прави отлична избор за разработчици, които се нуждаят от бърз и точен OCR без сложна настройка. Интеграцията му с Keras и TensorFlow позволява персонализация, докато груповата обработка осигурява мащабируемост.

Независимо дали създавате скенери за документи, автоматизирате въвеждане на данни или анализирате съдържание от социални мрежи, Keras-OCR предлага лек, но мощен инструмент.