Komplett OCR-prosess med Keras og TensorFlow
Bruk Keras-OCR for enkel men kraftig tekstgjenkjenning i Python.
Hva er Keras-OCR API?
Keras-OCR er et høynivå, åpen kildekode Python-bibliotek designet for å forenkle oppgaver for optisk tegngjenkjenning (OCR) ved bruk av Keras og TensorFlow. I motsetning til tradisjonelle OCR-systemer som krever omfattende konfigurasjon, tilbyr Keras-OCR en komplett løsning med forhåndstrente modeller for både tekstdeteksjon (ved bruk av CRAFT-algoritmen) og tekstgjenkjenning (via en CRNN-modell). Denne kombinasjonen lar utviklere trekke ut tekst fra bilder, skannede dokumenter eller til og med håndskrevne notater med bare noen få kodelinjer.
Biblioteket er optimalisert for virkelige bruksscenarioer, inkludert:
- Dokumentdigitalisering: Konverter papirdokumenter eller PDF-er til søkbart tekst
- Automatisert dataregistrering: Trekk ut tekst fra fakturaer, kvitteringer eller skjemaer
- Tilgjengelighetsverktøy: Generer alternativ tekst for bilder i webapper
- Sosiale medie-analyse: Behandle tekst innebygd i memes eller brukergenerert innhold
Med innebygd støtte for batchprosessering og valgfri GPU-akselerasjon, balanserer Keras-OCR brukervennlighet med ytelse, noe som gjør det ideelt for både prototyping og produksjonsimplementeringer.
Hovedfunksjoner i Keras-OCR
- Forhåndstrente modeller: Inkluderer CRAFT (detektor) og CRNN (gjenkjenner) for umiddelbar bruk
- Enkel oppsett: Minimale avhengigheter (Keras, TensorFlow, OpenCV)
- Batchprosessering: Behandle flere bilder parallelt for effektivitet
- Tilpasset trening: Finjuster modeller med dine egne datasett
- Ingen GPU kreves: Kjører på CPU men akselereres med GPU
- Avgrensningsramme output: Returnerer tekst med koordinater for romlig analyse
- Åpen kildekode: Gratis, fellesskapsdrevet og MIT-lisensiert
Installasjon
Installer Keras-OCR via pip (krever Python 3.6+):
Installer Keras-OCR
pip install keras-ocr
For GPU-støtte, sørg for at TensorFlow med GPU er installert:
Installer TensorFlow GPU
pip install tensorflow-gpu
Kodeeksempler
Nedenfor er praktiske eksempler på å trekke ut tekst fra bilder ved bruk av Keras-OCR.
Eksempel 1: Grunnleggende tekstdeteksjon og gjenkjenning
Dette eksemplet viser hvordan du bruker den forhåndstrente prosessen for å trekke ut tekst fra et bilde:
Grunnleggende OCR-prosess
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Eksempel 2: Batchprosessering
Behandle flere bilder samtidig for effektivitet:
Batchprosessering
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Eksempel 3: Visualisering av avgrensningsrammer
Tegn oppdagede tekstbokser på originalbildet:
Visualiser resultater
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Konklusjon
Keras-OCR forenkler tekstraktering med sin klare-til-bruk prosess, noe som gjør det til et utmerket valg for utviklere som trenger rask, nøyaktig OCR uten kompleks konfigurasjon. Integrasjonen med Keras og TensorFlow muliggjør tilpasninger, mens batchprosessering sikrer skalerbarhet.
Enten du bygger dokumentskannere, automatiserer dataregistrering eller analyserer sosiale medie-innhold, tilbyr Keras-OCR en lettvekts men kraftig løsning.