End-to-End OCR-Pipeline mit Keras und TensorFlow

Nutzen Sie Keras-OCR für einfache aber leistungsstarke Texterkennung in Python.

Was ist die Keras-OCR API?

Keras-OCR ist eine hochwertige Open-Source Python-Bibliothek, die entwickelt wurde, um Aufgaben der optischen Zeichenerkennung (OCR) mit der Leistung von Keras und TensorFlow zu vereinfachen. Im Gegensatz zu traditionellen OCR-Systemen, die umfangreiche Konfiguration erfordern, bietet Keras-OCR eine komplette Pipeline mit vortrainierten Modellen für Textdetektion (mit dem CRAFT-Algorithmus) und Texterkennung (über ein CRNN-Modell). Diese Kombination ermöglicht Entwicklern, Text aus Bildern, gescannten Dokumenten oder sogar handschriftlichen Notizen mit nur wenigen Codezeilen zu extrahieren.

Die Bibliothek ist für reale Anwendungsfälle optimiert, darunter:

Dokumentendigitalisierung: Konvertieren Sie Papierdokumente oder PDFs in durchsuchbaren Text.
Automatisierte Dateneingabe: Extrahieren Sie Text aus Rechnungen, Quittungen oder Formularen.
Barrierefreiheitstools: Generieren Sie Alternativtexte für Bilder in Webanwendungen.
Social-Media-Analyse: Verarbeiten Sie in Memes oder nutzergenerierten Inhalten eingebetteten Text.

Mit integrierter Unterstützung für Batch-Verarbeitung und optionaler GPU-Beschleunigung bietet Keras-OCR eine ausgewogene Balance zwischen Benutzerfreundlichkeit und Leistung, was es ideal für Prototyping und Produktionseinsatz macht.

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Hauptmerkmale von Keras-OCR

Vortrainierte Modelle: Enthält CRAFT (Detektor) und CRNN (Erkenner) für sofortige Nutzung.
Einfache Einrichtung: Minimale Abhängigkeiten (Keras, TensorFlow, OpenCV).
Batch-Verarbeitung: Parallele Verarbeitung mehrerer Bilder für Effizienz.
Anpassbares Training: Feinabstimmung der Modelle mit eigenen Datensätzen.
Keine GPU erforderlich: Läuft auf CPU, wird aber mit GPU beschleunigt.
Begrenzungsrahmen-Ausgabe: Liefert Text mit Koordinaten für räumliche Analyse.
Open Source: Kostenlos, community-getrieben und MIT-lizenziert.

Installation

Installieren Sie Keras-OCR über pip (erfordert Python 3.6+):

Keras-OCR installieren


pip install keras-ocr

Für GPU-Unterstützung stellen Sie sicher, dass TensorFlow mit GPU installiert ist:

TensorFlow GPU installieren


pip install tensorflow-gpu

Codebeispiele

Nachfolgend praktische Beispiele zur Textextraktion aus Bildern mit Keras-OCR.

Keras-OCR Texterkennung

Beispiel 1: Grundlegende Textdetektion und -erkennung

Dieses Beispiel zeigt, wie Sie die vortrainierte Pipeline zur Textextraktion nutzen:

Grundlegende OCR-Pipeline


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Beispiel 2: Batch-Verarbeitung

Mehrere Bilder gleichzeitig für Effizienz verarbeiten:

Batch-Verarbeitung


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Beispiel 3: Visualisierung von Begrenzungsrahmen

Erkannte Textbereiche im Originalbild markieren:

Ergebnisse visualisieren


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Fazit

Keras-OCR vereinfacht die Textextraktion mit seiner einsatzbereiten Pipeline und ist damit eine ausgezeichnete Wahl für Entwickler, die schnelle, präzise OCR ohne komplexe Einrichtung benötigen. Die Integration mit Keras und TensorFlow ermöglicht Anpassungen, während die Batch-Verarbeitung Skalierbarkeit sichert.

Egal ob Sie Dokumentenscanner entwickeln, Dateneingaben automatisieren oder Social-Media-Inhalte analysieren - Keras-OCR bietet eine leichtgewichtige aber leistungsstarke Lösung.