Keras और TensorFlow के साथ एंड-टू-एंड OCR पाइपलाइन

पायथन में सरल परंतु शक्तिशाली पाठ पहचान के लिए Keras-OCR का उपयोग करें।

Keras-OCR API क्या है?

Keras-OCR एक उच्च-स्तरीय, ओपन-सोर्स पायथन लाइब्रेरी है जो Keras और TensorFlow की शक्ति का उपयोग करके ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) कार्यों को सरल बनाने के लिए डिज़ाइन की गई है। पारंपरिक OCR सिस्टम के विपरीत जिन्हें व्यापक कॉन्फिगरेशन की आवश्यकता होती है, Keras-OCR पाठ पहचान (CRAFT एल्गोरिदम का उपयोग करके) और पाठ मान्यता (CRNN मॉडल के माध्यम से) दोनों के लिए प्री-ट्रेन्ड मॉडल के साथ एक संपूर्ण पाइपलाइन प्रदान करता है। यह संयोजन डेवलपर्स को केवल कुछ कोड पंक्तियों के साथ छवियों, स्कैन किए गए दस्तावेज़ों या यहां तक कि हस्तलिखित नोट्स से पाठ निकालने की अनुमति देता है।

यह लाइब्रेरी वास्तविक दुनिया के उपयोग के मामलों के लिए अनुकूलित है, जिसमें शामिल हैं:

दस्तावेज़ डिजिटलीकरण: कागज दस्तावेज़ या PDF को खोजने योग्य पाठ में बदलें
स्वचालित डेटा प्रविष्टि: चालान, रसीदों या फॉर्म से पाठ निकालें
एक्सेसिबिलिटी टूल्स: वेब एप्लिकेशन में छवियों के लिए वैकल्पिक पाठ उत्पन्न करें
सोशल मीडिया विश्लेषण: मीम्स या उपयोगकर्ता-जनित सामग्री में एम्बेडेड पाठ को संसाधित करें

बैच प्रसंस्करण और वैकल्पिक GPU त्वरण के लिए अंतर्निहित समर्थन के साथ, Keras-OCR उपयोग में आसानी और प्रदर्शन के बीच संतुलन बनाता है, जो इसे प्रोटोटाइपिंग और प्रोडक्शन तैनाती दोनों के लिए आदर्श बनाता है।

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

Keras-OCR की प्रमुख विशेषताएं

प्री-ट्रेन्ड मॉडल: तत्काल उपयोग के लिए CRAFT (डिटेक्टर) और CRNN (रिकग्नाइज़र) शामिल हैं
आसान सेटअप: न्यूनतम निर्भरताएं (Keras, TensorFlow, OpenCV)
बैच प्रसंस्करण: दक्षता के लिए एक साथ कई छवियों को संसाधित करें
कस्टम प्रशिक्षण: अपने स्वयं के डेटासेट पर मॉडल को फाइन-ट्यून करें
GPU आवश्यक नहीं: CPU पर चलता है लेकिन GPU के साथ तेज होता है
बाउंडिंग बॉक्स आउटपुट: स्थानिक विश्लेषण के लिए निर्देशांक के साथ पाठ लौटाता है
ओपन सोर्स: निःशुल्क, समुदाय-संचालित और MIT लाइसेंस प्राप्त

स्थापना

pip के माध्यम से Keras-OCR स्थापित करें (Python 3.6+ आवश्यक):

Keras-OCR स्थापित करें


pip install keras-ocr

GPU समर्थन के लिए, सुनिश्चित करें कि TensorFlow GPU स्थापित है:

TensorFlow GPU स्थापित करें


pip install tensorflow-gpu

कोड उदाहरण

Keras-OCR का उपयोग करके छवियों से पाठ निकालने के व्यावहारिक उदाहरण नीचे दिए गए हैं।

Keras-OCR पाठ पहचान

उदाहरण 1: बेसिक टेक्स्ट डिटेक्शन और रिकग्निशन

यह उदाहरण दिखाता है कि प्री-ट्रेन्ड पाइपलाइन का उपयोग करके छवि से पाठ कैसे निकाला जाए:

बेसिक OCR पाइपलाइन


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

उदाहरण 2: बैच प्रसंस्करण

दक्षता के लिए एक साथ कई छवियों को संसाधित करें:

बैच प्रसंस्करण


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

उदाहरण 3: बाउंडिंग बॉक्स विज़ुअलाइज़ेशन

मूल छवि पर पहचाने गए टेक्स्ट बॉक्स खींचें:

परिणाम देखें


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

निष्कर्ष

Keras-OCR अपने तैयार-से-उपयोग पाइपलाइन के साथ पाठ निष्कर्षण को सरल बनाता है, जो इसे उन डेवलपर्स के लिए एक उत्कृष्ट विकल्प बनाता है जिन्हें जटिल सेटअप के बिना त्वरित, सटीक OCR की आवश्यकता होती है। Keras और TensorFlow के साथ इसका एकीकरण अनुकूलन की अनुमति देता है, जबकि बैच प्रसंस्करण स्केलेबिलिटी सुनिश्चित करता है।

चाहे आप दस्तावेज़ स्कैनर बना रहे हों, डेटा प्रविष्टि को स्वचालित कर रहे हों या सोशल मीडिया सामग्री का विश्लेषण कर रहे हों, Keras-OCR एक हल्का लेकिन शक्तिशाली समाधान प्रदान करता है।