Комплексен OCR процес с Keras и TensorFlow
Използвайте Keras-OCR за просто, но мощно разпознаване на текст в Python.
Какво е Keras-OCR API?
Keras-OCR е високо ниво, с отворен код Python библиотека, предназначена да опрости задачите за оптично разпознаване на знаци (OCR), използвайки силата на Keras и TensorFlow. За разлика от традиционните OCR системи, които изискват сложна конфигурация, Keras-OCR предлага готов процес с предварително обучени модели за откриване на текст (чрез алгоритъма CRAFT) и разпознаване на текст (чрез CRNN модел). Тази комбинация позволява на разработчиците да извличат текст от изображения, сканирани документи или дори ръкописни бележки само с няколко реда код.
Библиотеката е оптимизирана за реални случаи на употреба, включително:
- Дигитализация на документи: Преобразувайте хартиени документи или PDF файлове в текст за търсене.
- Автоматизиран въвеждане на данни: Извличане на текст от фактури, разписки или формуляри.
- Инструменти за достъпност: Генериране на алтернативен текст за изображения в уеб приложения.
- Анализ на социални мрежи: Обработка на текст, вграден в мемета или потребителски генерирано съдържание.
С вградена поддръжка за групова обработка и незадължително GPU ускорение, Keras-OCR балансира лекота на използване с производителност, което го прави идеален както за прототипиране, така и за продуктиви среди.
Основни характеристики на Keras-OCR
- Предварително обучени модели: Включва CRAFT (детектор) и CRNN (разпознаващ) за незабавна употреба.
- Лесна настройка: Минимални зависимости (Keras, TensorFlow, OpenCV).
- Групова обработка: Обработвайте множество изображения паралелно за ефективност.
- Персонализирано обучение: Настройвайте моделите с вашите собствени данни.
- Не е задължително GPU: Работи на CPU, но се ускорява с GPU.
- Изход с координати: Връща текст с координати за пространствен анализ.
- Отворен код: Безплатна, разработена от общността и с MIT лиценз.
Инсталация
Инсталирайте Keras-OCR чрез pip (изисква Python 3.6+):
Инсталиране на Keras-OCR
pip install keras-ocr
За поддръжка на GPU, уверете се, че TensorFlow с GPU е инсталиран:
Инсталиране на TensorFlow GPU
pip install tensorflow-gpu
Примери с код
По-долу са дадени практически примери за извличане на текст от изображения с Keras-OCR.
Пример 1: Основно откриване и разпознаване на текст
Този пример показва как да използвате готовия процес за извличане на текст от изображение:
Основен OCR процес
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Пример 2: Групова обработка
Обработвайте няколко изображения наведнъж за ефективност:
Групова обработка
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Пример 3: Визуализация на открития текст
Начертайте открития текст върху оригиналното изображение:
Визуализиране на резултати
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Заключение
Keras-OCR опростява извличането на текст с готовия си процес, което го прави отлична избор за разработчици, които се нуждаят от бърз и точен OCR без сложна настройка. Интеграцията му с Keras и TensorFlow позволява персонализация, докато груповата обработка осигурява мащабируемост.
Независимо дали създавате скенери за документи, автоматизирате въвеждане на данни или анализирате съдържание от социални мрежи, Keras-OCR предлага лек, но мощен инструмент.
Подобни Продукти
- docTR API – Оптично разпознаване на символи в Python
- EasyOCR API – Изчерпателно оптично разпознаване на знаци (OCR) на Python
- pdfminer.six Python библиотека | Извличане на текст от PDF файлове
- PyMuPDF Python API | Разширено анализиране и извличане на PDF
- pypdf | Библиотека на Python за ефективно анализиране на PDF файлове