Teljes körű OCR folyamat Keras és TensorFlow segítségével
Használja a Keras-OCR-t egyszerű, de hatékony szövegfelismeréshez Pythonban.
Mi a Keras-OCR API?
A Keras-OCR egy magas szintű, nyílt forráskódú Python könyvtár, amelyet az optikai karakterfelismerési (OCR) feladatok egyszerűsítésére terveztek a Keras és a TensorFlow segítségével. A hagyományos OCR rendszerekkel ellentétben, amelyek kiterjedt konfigurációt igényelnek, a Keras-OCR egy teljes körű folyamatot kínál előre betanított modellekkel mind a szövegészleléshez (a CRAFT algoritmus segítségével), mind a szövegfelismeréshez (egy CRNN modellen keresztül). Ez a kombináció lehetővé teszi a fejlesztők számára, hogy néhány sornyi kóddal szöveget nyerjenek ki képekből, szkennelt dokumentumokból vagy akár kézírásos jegyzetekből.
A könyvtár valós felhasználási esetekre van optimalizálva, például:
- Dokumentumok digitalizálása: Papírdokumentumok vagy PDF-ek átalakítása kereshető szöveggé.
- Automatizált adatbevitel: Szöveg kinyerése számlákból, nyugtákból vagy űrlapokból.
- Akadálymentesítő eszközök: Alternatív szöveg generálása képekhez webalkalmazásokban.
- Közösségi média elemzés: Szöveg feldolgozása mémekben vagy felhasználó által generált tartalmakban.
A beépített kötegelt feldolgozás és az opcionális GPU-gyorsítás támogatásával a Keras-OCR egyensúlyt teremt a könnyű használat és a teljesítmény között, így ideális választás mind prototípuskészítéshez, mind termelési környezetben való használathoz.
A Keras-OCR főbb jellemzői
- Előre betanított modellek: Tartalmazza a CRAFT (érzékelő) és a CRNN (felismerő) modelleket azonnali használatra.
- Egyszerű beállítás: Minimális függőségek (Keras, TensorFlow, OpenCV).
- Kötegelt feldolgozás: Több kép párhuzamos feldolgozása a hatékonyság érdekében.
- Testreszabott betanítás: Modellek finomhangolása saját adathalmazokon.
- GPU nem szükséges: CPU-n is fut, de GPU-val gyorsabb.
- Határolókeret kimenet: Szöveget ad vissza koordinátákkal térbeli elemzéshez.
- Nyílt forráskódú: Ingyenes, közösség által vezérelt és MIT licenc alatt áll.
Telepítés
Telepítse a Keras-OCR-t pip segítségével (Python 3.6+ szükséges):
Keras-OCR telepítése
pip install keras-ocr
GPU támogatáshoz győződjön meg arról, hogy a TensorFlow GPU-val van telepítve:
TensorFlow GPU telepítése
pip install tensorflow-gpu
Kódpéldák
Az alábbiakban gyakorlati példák láthatók szöveg kinyerésére képekből a Keras-OCR segítségével.
1. példa: Alapszintű szövegészlelés és -felismerés
Ez a példa bemutatja, hogyan használható az előre betanított folyamat szöveg kinyerésére egy képből:
Alapszintű OCR folyamat
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
2. példa: Kötegelt feldolgozás
Több kép feldolgozása egyszerre a hatékonyság érdekében:
Kötegelt feldolgozás
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
3. példa: Határolókeretek megjelenítése
Az észlelt szövegkeretek rajzolása az eredeti képre:
Eredmények megjelenítése
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
Összegzés
A Keras-OCR leegyszerűsíti a szövegkinyerést a készen használható folyamatával, így kiváló választás a fejlesztők számára, akik gyors, pontos OCR-ra van szükségük bonyolult beállítás nélkül. A Keras és TensorFlow integrációja lehetővé teszi a testreszabást, míg a kötegelt feldolgozás biztosítja a skálázhatóságot.
Legyen szó dokumentumszkennerekről, automatizált adatbevitelről vagy közösségi média tartalmak elemzéséről, a Keras-OCR egy könnyű, de hatékony megoldást kínál.