Valmis OCR-putki Kerasilla ja TensorFlowlla

Käytä Keras-OCR:ia yksinkertaiseen mutta tehokkaaseen tekstintunnistukseen Pythonissa.

Mikä on Keras-OCR API?

Keras-OCR on korkean tason avoimen lähdekoodin Python-kirjasto, joka on suunniteltu yksinkertaistamaan optisen merkkien tunnistuksen (OCR) tehtäviä Kerasin ja TensorFlown avulla. Toisin kuin perinteiset OCR-järjestelmät, jotka vaativat laajaa määrittelyä, Keras-OCR tarjoaa valmiin putken esikoulutetuille malleille tekstin havaitsemiseen (käyttäen CRAFT-algoritmia) ja tekstin tunnistamiseen (CRNN-mallin avulla). Tämä yhdistelmä mahdollistaa kehittäjien poimia tekstiä kuvista, skannatuista asiakirjoista tai jopa käsinkirjoitetuista muistiinpanoista vain muutamalla koodirivillä.

Kirjasto on optimoitu todellisiin käyttötarkoituksiin, kuten:

Asiakirjojen digitalisointi: Muunna paperiasiakirjat tai PDF-tiedostot haettavaksi tekstiksi.
Tietojen automaattinen syöttäminen: Poimi tekstiä laskuista, kuitista tai lomakkeista.
Saavutettavuustyökalut: Luo vaihtoehtoista tekstiä kuville verkkosovelluksissa.
Sosiaalisen median analysointi: Käsittele meemeihin tai käyttäjien luomaan sisältöön upotettua tekstiä.

Sisäänrakennetulla eräajon tuella ja valinnaisella GPU-kiihdytyksellä Keras-OCR tasapainottaa käytön helppoutta ja suorituskykyä, tehden siitä ihanteellisen sekä prototyyppiin että tuotantokäyttöön.

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

Keras-OCR:n keskeiset ominaisuudet

Esikoulutetut mallit: Sisältää CRAFT (havaitsin) ja CRNN (tunnistin) välittömään käyttöön.
Helppo asennus: Vähäiset riippuvuudet (Keras, TensorFlow, OpenCV).
Eräajon käsittely: Käsittele useita kuvia rinnakkain tehokkuuden vuoksi.
Mukautettu koulutus: Hienosäädä malleja omilla tietojoukoillasi.
GPU ei vaadita: Toimii CPU:lla mutta kiihtyy GPU:lla.
Rajauslaatikoiden tulostus: Palauttaa tekstin koordinaatteineen spatiaalista analyysiä varten.
Avoin lähdekoodi: Ilmainen, yhteisövetoinen ja MIT-lisensoitu.

Asennus

Asenna Keras-OCR pip:n avulla (vaatii Python 3.6+):

Asenna Keras-OCR


pip install keras-ocr

GPU-tuen varmistamiseksi varmista, että TensorFlow GPU on asennettuna:

Asenna TensorFlow GPU


pip install tensorflow-gpu

Koodiesimerkkejä

Alla on käytännön esimerkkejä tekstin poimimisesta kuvista Keras-OCR:n avulla.

Tekstin tunnistus Keras-OCR:lla

Esimerkki 1: Perustekstin havaitseminen ja tunnistaminen

Tämä esimerkki näyttää, kuinka käyttää esikoulutettua putkea tekstin poimimiseen kuvasta:

Perus OCR-putki


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Esimerkki 2: Eräajon käsittely

Käsittele useita kuvia kerralla tehokkuuden vuoksi:

Eräajon käsittely


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Esimerkki 3: Rajauslaatikoiden visualisointi

Piirrä havaittujen tekstilaatikoiden alueet alkuperäiseen kuvaan:

Visualisoi tulokset


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Johtopäätös

Keras-OCR yksinkertaistaa tekstin poimimista valmiilla putkellaan, tehden siitä erinomaisen valinnan kehittäjille, jotka tarvitsevat nopeaa, tarkkaa OCR:ää ilman monimutkaista määritystä. Sen integraatio Kerasin ja TensorFlown kanssa mahdollistaa mukautukset, kun eräajon käsittely varmistaa skaalautuvuuden.

Olitpa sitten rakentamassa asiakirjojen skannereita, automatisoimassa tietojen syöttöä tai analysoimassa sosiaalisen median sisältöä, Keras-OCR tarjoaa kevyen mutta tehokkaan ratkaisun.