Pipeline completo de OCR com Keras e TensorFlow

Use Keras-OCR para reconhecimento de texto simples mas poderoso em Python

O que é a API Keras-OCR?

Keras-OCR é uma biblioteca Python de alto nível e código aberto projetada para simplificar tarefas de OCR (Reconhecimento Óptico de Caracteres) usando o poder do Keras e TensorFlow. Diferente de sistemas OCR tradicionais que exigem configuração complexa, o Keras-OCR oferece um pipeline completo com modelos pré-treinados para detecção de texto (usando o algoritmo CRAFT) e reconhecimento de texto (através de um modelo CRNN). Essa combinação permite extrair texto de imagens, documentos digitalizados ou até anotações manuscritas com poucas linhas de código.

A biblioteca é otimizada para casos de uso reais como:

Digitalização de documentos: Converter documentos em papel ou PDF para texto pesquisável
Automação de entrada de dados: Extrair texto de faturas, recibos ou formulários
Acessibilidade: Gerar texto alternativo para imagens em aplicações web
Análise de mídias sociais: Processar texto em memes ou conteúdo gerado por usuários

Com suporte nativo para processamento em batch e aceleração por GPU opcional, o Keras-OCR equilibra facilidade de uso com desempenho, sendo ideal tanto para prototipagem quanto para produção.

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Principais recursos do Keras-OCR

Modelos pré-treinados: Inclui CRAFT (detector) e CRNN (reconhecedor) prontos para uso
Configuração simples: Dependências mínimas (Keras, TensorFlow, OpenCV)
Processamento em batch: Processa várias imagens simultaneamente
Treinamento personalizado: Ajuste os modelos com seus próprios datasets
Funciona sem GPU: Roda em CPU mas é acelerado por GPU
Coordenadas de texto: Retorna posições do texto para análise espacial
Código aberto: Gratuito, desenvolvido pela comunidade com licença MIT

Como instalar

Instale o Keras-OCR via pip (requer Python 3.6+):

Instalar Keras-OCR


pip install keras-ocr

Para suporte a GPU, instale o TensorFlow com suporte a GPU:

Instalar TensorFlow GPU


pip install tensorflow-gpu

Exemplos práticos

Veja exemplos de como extrair texto de imagens com Keras-OCR:

Exemplo de detecção de texto com Keras-OCR

Exemplo 1: Detecção básica de texto

Como usar o pipeline pré-treinado para extrair texto:

Pipeline básico de OCR


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Exemplo 2: Processar várias imagens

Processamento em batch para maior eficiência:

Processamento em lote


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Exemplo 3: Visualizar resultados

Como desenhar os textos detectados na imagem original:

Visualização dos resultados


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Conclusão

O Keras-OCR simplifica a extração de texto com seu pipeline pronto para uso, sendo uma excelente opção para quem precisa de OCR rápido e preciso sem configuração complexa. Sua integração com Keras e TensorFlow permite personalizações, enquanto o processamento em batch garante escalabilidade.

Seja para digitalizar documentos, automatizar processos ou analisar conteúdo, o Keras-OCR oferece uma solução leve e eficiente.