Komplet OCR-pipeline med Keras og TensorFlow

Brug Keras-OCR til enkel men kraftfuld tekstgenkendelse i Python.

Hvad er Keras-OCR API?

Keras-OCR er et højniveau, open-source Python-bibliotek designet til at strømline optisk tegnigenkendelse (OCR) ved hjælp af Keras og TensorFlow. I modsætning til traditionelle OCR-systemer, der kræver omfattende konfiguration, tilbyder Keras-OCR en komplet pipeline med forhåndstrænede modeller til både tekstdetektering (ved brug af CRAFT-algoritmen) og tekstgenkendelse (via en CRNN-model). Denne kombination gør det muligt for udviklere at udtrække tekst fra billeder, scannede dokumenter eller endda håndskrevne noter med blot få linjer kode.

Biblioteket er optimeret til virkelige brugsscenarier, herunder:

Digitalisering af dokumenter: Konverter papirdokumenter eller PDF-filer til søgbare tekster.
Automatiseret dataindtastning: Udtræk tekst fra fakturaer, kvitteringer eller formularer.
Tilgængelighedsværktøjer: Generer alternativ tekst til billeder i webapplikationer.
Sociale medie-analyse: Behandling af tekst indlejret i memes eller brugergenereret indhold.

Med indbygget understøttelse af batchbehandling og valgfri GPU-acceleration balancerer Keras-OCR brugervenlighed med ydeevne, hvilket gør det ideelt til både prototyping og produktionsimplementeringer.

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Kernefunktioner i Keras-OCR

Forhåndstrænede modeller: Inkluderer CRAFT (detektor) og CRNN (genkender) til øjeblikkelig brug.
Nem opsætning: Minimale afhængigheder (Keras, TensorFlow, OpenCV).
Batchbehandling: Behandling af flere billeder parallelt for effektivitet.
Tilpasset træning: Finjuster modeller på dine egne datasæt.
Ingen GPU påkrævet: Kører på CPU men accelereres med GPU.
Bounding box output: Returnerer tekst med koordinater til rumlig analyse.
Open source: Gratis, drevet af fællesskabet og MIT-licenseret.

Installation

Installer Keras-OCR via pip (kræver Python 3.6+):

Installer Keras-OCR


pip install keras-ocr

For GPU-understøttelse skal du sikre dig, at TensorFlow med GPU er installeret:

Installer TensorFlow GPU


pip install tensorflow-gpu

Kodeeksempler

Nedenfor er praktiske eksempler på at udtrække tekst fra billeder ved hjælp af Keras-OCR.

Keras-OCR tekstdetektering

Eksempel 1: Grundlæggende tekstdetektering og -genkendelse

Dette eksempel viser, hvordan man bruger den forhåndstrænede pipeline til at udtrække tekst fra et billede:

Grundlæggende OCR-pipeline


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Eksempel 2: Batchbehandling

Behandl flere billeder på én gang for effektivitet:

Batchbehandling


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Eksempel 3: Visualisering af bounding boxes

Tegn de detekterede tekstbokse på det originale billede:

Visualiser resultater


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Konklusion

Keras-OCR forenkler tekstudtrækning med sin klar-til-brug pipeline, hvilket gør det til et fremragende valg for udviklere, der har brug for hurtig, præcis OCR uden kompleks opsætning. Dens integration med Keras og TensorFlow tillader tilpasning, mens batchbehandling sikrer skalerbarhed.

Uanset om du bygger dokumentscannere, automatiserer dataindtastning eller analyserer sociale medieindhold, leverer Keras-OCR en letvægts- men kraftfuld løsning.