Valmis OCR-putki Kerasilla ja TensorFlowlla
Käytä Keras-OCR:ia yksinkertaiseen mutta tehokkaaseen tekstintunnistukseen Pythonissa.
Mikä on Keras-OCR API?
Keras-OCR on korkean tason avoimen lähdekoodin Python-kirjasto, joka on suunniteltu yksinkertaistamaan optisen merkkien tunnistuksen (OCR) tehtäviä Kerasin ja TensorFlown avulla. Toisin kuin perinteiset OCR-järjestelmät, jotka vaativat laajaa määrittelyä, Keras-OCR tarjoaa valmiin putken esikoulutetuille malleille tekstin havaitsemiseen (käyttäen CRAFT-algoritmia) ja tekstin tunnistamiseen (CRNN-mallin avulla). Tämä yhdistelmä mahdollistaa kehittäjien poimia tekstiä kuvista, skannatuista asiakirjoista tai jopa käsinkirjoitetuista muistiinpanoista vain muutamalla koodirivillä.
Kirjasto on optimoitu todellisiin käyttötarkoituksiin, kuten:
- Asiakirjojen digitalisointi: Muunna paperiasiakirjat tai PDF-tiedostot haettavaksi tekstiksi.
- Tietojen automaattinen syöttäminen: Poimi tekstiä laskuista, kuitista tai lomakkeista.
- Saavutettavuustyökalut: Luo vaihtoehtoista tekstiä kuville verkkosovelluksissa.
- Sosiaalisen median analysointi: Käsittele meemeihin tai käyttäjien luomaan sisältöön upotettua tekstiä.
Sisäänrakennetulla eräajon tuella ja valinnaisella GPU-kiihdytyksellä Keras-OCR tasapainottaa käytön helppoutta ja suorituskykyä, tehden siitä ihanteellisen sekä prototyyppiin että tuotantokäyttöön.
Keras-OCR:n keskeiset ominaisuudet
- Esikoulutetut mallit: Sisältää CRAFT (havaitsin) ja CRNN (tunnistin) välittömään käyttöön.
- Helppo asennus: Vähäiset riippuvuudet (Keras, TensorFlow, OpenCV).
- Eräajon käsittely: Käsittele useita kuvia rinnakkain tehokkuuden vuoksi.
- Mukautettu koulutus: Hienosäädä malleja omilla tietojoukoillasi.
- GPU ei vaadita: Toimii CPU:lla mutta kiihtyy GPU:lla.
- Rajauslaatikoiden tulostus: Palauttaa tekstin koordinaatteineen spatiaalista analyysiä varten.
- Avoin lähdekoodi: Ilmainen, yhteisövetoinen ja MIT-lisensoitu.
Asennus
Asenna Keras-OCR pip:n avulla (vaatii Python 3.6+):
Asenna Keras-OCR
pip install keras-ocr
GPU-tuen varmistamiseksi varmista, että TensorFlow GPU on asennettuna:
Asenna TensorFlow GPU
pip install tensorflow-gpu
Koodiesimerkkejä
Alla on käytännön esimerkkejä tekstin poimimisesta kuvista Keras-OCR:n avulla.
Esimerkki 1: Perustekstin havaitseminen ja tunnistaminen
Tämä esimerkki näyttää, kuinka käyttää esikoulutettua putkea tekstin poimimiseen kuvasta:
Perus OCR-putki
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
Esimerkki 2: Eräajon käsittely
Käsittele useita kuvia kerralla tehokkuuden vuoksi:
Eräajon käsittely
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
Esimerkki 3: Rajauslaatikoiden visualisointi
Piirrä havaittujen tekstilaatikoiden alueet alkuperäiseen kuvaan:
Visualisoi tulokset
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Johtopäätös
Keras-OCR yksinkertaistaa tekstin poimimista valmiilla putkellaan, tehden siitä erinomaisen valinnan kehittäjille, jotka tarvitsevat nopeaa, tarkkaa OCR:ää ilman monimutkaista määritystä. Sen integraatio Kerasin ja TensorFlown kanssa mahdollistaa mukautukset, kun eräajon käsittely varmistaa skaalautuvuuden.
Olitpa sitten rakentamassa asiakirjojen skannereita, automatisoimassa tietojen syöttöä tai analysoimassa sosiaalisen median sisältöä, Keras-OCR tarjoaa kevyen mutta tehokkaan ratkaisun.