Pipeline completo de OCR com Keras e TensorFlow
Use Keras-OCR para reconhecimento de texto simples mas poderoso em Python
O que é a API Keras-OCR?
Keras-OCR é uma biblioteca Python de alto nível e código aberto projetada para simplificar tarefas de OCR (Reconhecimento Óptico de Caracteres) usando o poder do Keras e TensorFlow. Diferente de sistemas OCR tradicionais que exigem configuração complexa, o Keras-OCR oferece um pipeline completo com modelos pré-treinados para detecção de texto (usando o algoritmo CRAFT) e reconhecimento de texto (através de um modelo CRNN). Essa combinação permite extrair texto de imagens, documentos digitalizados ou até anotações manuscritas com poucas linhas de código.
A biblioteca é otimizada para casos de uso reais como:
- Digitalização de documentos: Converter documentos em papel ou PDF para texto pesquisável
- Automação de entrada de dados: Extrair texto de faturas, recibos ou formulários
- Acessibilidade: Gerar texto alternativo para imagens em aplicações web
- Análise de mídias sociais: Processar texto em memes ou conteúdo gerado por usuários
Com suporte nativo para processamento em batch e aceleração por GPU opcional, o Keras-OCR equilibra facilidade de uso com desempenho, sendo ideal tanto para prototipagem quanto para produção.
Principais recursos do Keras-OCR
- Modelos pré-treinados: Inclui CRAFT (detector) e CRNN (reconhecedor) prontos para uso
- Configuração simples: Dependências mínimas (Keras, TensorFlow, OpenCV)
- Processamento em batch: Processa várias imagens simultaneamente
- Treinamento personalizado: Ajuste os modelos com seus próprios datasets
- Funciona sem GPU: Roda em CPU mas é acelerado por GPU
- Coordenadas de texto: Retorna posições do texto para análise espacial
- Código aberto: Gratuito, desenvolvido pela comunidade com licença MIT
Como instalar
Instale o Keras-OCR via pip (requer Python 3.6+):
Instalar Keras-OCR
pip install keras-ocr
Para suporte a GPU, instale o TensorFlow com suporte a GPU:
Instalar TensorFlow GPU
pip install tensorflow-gpu
Exemplos práticos
Veja exemplos de como extrair texto de imagens com Keras-OCR:
Exemplo 1: Detecção básica de texto
Como usar o pipeline pré-treinado para extrair texto:
Pipeline básico de OCR
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Exemplo 2: Processar várias imagens
Processamento em batch para maior eficiência:
Processamento em lote
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Exemplo 3: Visualizar resultados
Como desenhar os textos detectados na imagem original:
Visualização dos resultados
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Conclusão
O Keras-OCR simplifica a extração de texto com seu pipeline pronto para uso, sendo uma excelente opção para quem precisa de OCR rápido e preciso sem configuração complexa. Sua integração com Keras e TensorFlow permite personalizações, enquanto o processamento em batch garante escalabilidade.
Seja para digitalizar documentos, automatizar processos ou analisar conteúdo, o Keras-OCR oferece uma solução leve e eficiente.
Podobne Produkty
- docTR API - Optyczne rozpoznawanie znaków (OCR) w Pythonie
- EasyOCR API – Kompleksowe rozpoznawanie znaków (OCR) w Pythonie
- pdfminer.six Biblioteka Pythona | Wyodrębnij tekst z plików PDF
- PyMuPDF Python API | Zaawansowane parsowanie i ekstrakcja PDF
- pypdf | Biblioteka Pythona do wydajnego analizowania plików PDF