Komplett OCR-prosess med Keras og TensorFlow

Bruk Keras-OCR for enkel men kraftig tekstgjenkjenning i Python.

Hva er Keras-OCR API?

Keras-OCR er et høynivå, åpen kildekode Python-bibliotek designet for å forenkle oppgaver for optisk tegngjenkjenning (OCR) ved bruk av Keras og TensorFlow. I motsetning til tradisjonelle OCR-systemer som krever omfattende konfigurasjon, tilbyr Keras-OCR en komplett løsning med forhåndstrente modeller for både tekstdeteksjon (ved bruk av CRAFT-algoritmen) og tekstgjenkjenning (via en CRNN-modell). Denne kombinasjonen lar utviklere trekke ut tekst fra bilder, skannede dokumenter eller til og med håndskrevne notater med bare noen få kodelinjer.

Biblioteket er optimalisert for virkelige bruksscenarioer, inkludert:

Dokumentdigitalisering: Konverter papirdokumenter eller PDF-er til søkbart tekst
Automatisert dataregistrering: Trekk ut tekst fra fakturaer, kvitteringer eller skjemaer
Tilgjengelighetsverktøy: Generer alternativ tekst for bilder i webapper
Sosiale medie-analyse: Behandle tekst innebygd i memes eller brukergenerert innhold

Med innebygd støtte for batchprosessering og valgfri GPU-akselerasjon, balanserer Keras-OCR brukervennlighet med ytelse, noe som gjør det ideelt for både prototyping og produksjonsimplementeringer.

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Hovedfunksjoner i Keras-OCR

Forhåndstrente modeller: Inkluderer CRAFT (detektor) og CRNN (gjenkjenner) for umiddelbar bruk
Enkel oppsett: Minimale avhengigheter (Keras, TensorFlow, OpenCV)
Batchprosessering: Behandle flere bilder parallelt for effektivitet
Tilpasset trening: Finjuster modeller med dine egne datasett
Ingen GPU kreves: Kjører på CPU men akselereres med GPU
Avgrensningsramme output: Returnerer tekst med koordinater for romlig analyse
Åpen kildekode: Gratis, fellesskapsdrevet og MIT-lisensiert

Installasjon

Installer Keras-OCR via pip (krever Python 3.6+):

Installer Keras-OCR


pip install keras-ocr

For GPU-støtte, sørg for at TensorFlow med GPU er installert:

Installer TensorFlow GPU


pip install tensorflow-gpu

Kodeeksempler

Nedenfor er praktiske eksempler på å trekke ut tekst fra bilder ved bruk av Keras-OCR.

Tekstdeteksjon med Keras-OCR

Eksempel 1: Grunnleggende tekstdeteksjon og gjenkjenning

Dette eksemplet viser hvordan du bruker den forhåndstrente prosessen for å trekke ut tekst fra et bilde:

Grunnleggende OCR-prosess


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Eksempel 2: Batchprosessering

Behandle flere bilder samtidig for effektivitet:

Batchprosessering


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Eksempel 3: Visualisering av avgrensningsrammer

Tegn oppdagede tekstbokser på originalbildet:

Visualiser resultater


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Konklusjon

Keras-OCR forenkler tekstraktering med sin klare-til-bruk prosess, noe som gjør det til et utmerket valg for utviklere som trenger rask, nøyaktig OCR uten kompleks konfigurasjon. Integrasjonen med Keras og TensorFlow muliggjør tilpasninger, mens batchprosessering sikrer skalerbarhet.

Enten du bygger dokumentskannere, automatiserer dataregistrering eller analyserer sosiale medie-innhold, tilbyr Keras-OCR en lettvekts men kraftig løsning.