Keras और TensorFlow के साथ एंड-टू-एंड OCR पाइपलाइन
पायथन में सरल परंतु शक्तिशाली पाठ पहचान के लिए Keras-OCR का उपयोग करें।
Keras-OCR API क्या है?
Keras-OCR एक उच्च-स्तरीय, ओपन-सोर्स पायथन लाइब्रेरी है जो Keras और TensorFlow की शक्ति का उपयोग करके ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) कार्यों को सरल बनाने के लिए डिज़ाइन की गई है। पारंपरिक OCR सिस्टम के विपरीत जिन्हें व्यापक कॉन्फिगरेशन की आवश्यकता होती है, Keras-OCR पाठ पहचान (CRAFT एल्गोरिदम का उपयोग करके) और पाठ मान्यता (CRNN मॉडल के माध्यम से) दोनों के लिए प्री-ट्रेन्ड मॉडल के साथ एक संपूर्ण पाइपलाइन प्रदान करता है। यह संयोजन डेवलपर्स को केवल कुछ कोड पंक्तियों के साथ छवियों, स्कैन किए गए दस्तावेज़ों या यहां तक कि हस्तलिखित नोट्स से पाठ निकालने की अनुमति देता है।
यह लाइब्रेरी वास्तविक दुनिया के उपयोग के मामलों के लिए अनुकूलित है, जिसमें शामिल हैं:
- दस्तावेज़ डिजिटलीकरण: कागज दस्तावेज़ या PDF को खोजने योग्य पाठ में बदलें
- स्वचालित डेटा प्रविष्टि: चालान, रसीदों या फॉर्म से पाठ निकालें
- एक्सेसिबिलिटी टूल्स: वेब एप्लिकेशन में छवियों के लिए वैकल्पिक पाठ उत्पन्न करें
- सोशल मीडिया विश्लेषण: मीम्स या उपयोगकर्ता-जनित सामग्री में एम्बेडेड पाठ को संसाधित करें
बैच प्रसंस्करण और वैकल्पिक GPU त्वरण के लिए अंतर्निहित समर्थन के साथ, Keras-OCR उपयोग में आसानी और प्रदर्शन के बीच संतुलन बनाता है, जो इसे प्रोटोटाइपिंग और प्रोडक्शन तैनाती दोनों के लिए आदर्श बनाता है।
Keras-OCR की प्रमुख विशेषताएं
- प्री-ट्रेन्ड मॉडल: तत्काल उपयोग के लिए CRAFT (डिटेक्टर) और CRNN (रिकग्नाइज़र) शामिल हैं
- आसान सेटअप: न्यूनतम निर्भरताएं (Keras, TensorFlow, OpenCV)
- बैच प्रसंस्करण: दक्षता के लिए एक साथ कई छवियों को संसाधित करें
- कस्टम प्रशिक्षण: अपने स्वयं के डेटासेट पर मॉडल को फाइन-ट्यून करें
- GPU आवश्यक नहीं: CPU पर चलता है लेकिन GPU के साथ तेज होता है
- बाउंडिंग बॉक्स आउटपुट: स्थानिक विश्लेषण के लिए निर्देशांक के साथ पाठ लौटाता है
- ओपन सोर्स: निःशुल्क, समुदाय-संचालित और MIT लाइसेंस प्राप्त
स्थापना
pip के माध्यम से Keras-OCR स्थापित करें (Python 3.6+ आवश्यक):
Keras-OCR स्थापित करें
pip install keras-ocr
GPU समर्थन के लिए, सुनिश्चित करें कि TensorFlow GPU स्थापित है:
TensorFlow GPU स्थापित करें
pip install tensorflow-gpu
कोड उदाहरण
Keras-OCR का उपयोग करके छवियों से पाठ निकालने के व्यावहारिक उदाहरण नीचे दिए गए हैं।
उदाहरण 1: बेसिक टेक्स्ट डिटेक्शन और रिकग्निशन
यह उदाहरण दिखाता है कि प्री-ट्रेन्ड पाइपलाइन का उपयोग करके छवि से पाठ कैसे निकाला जाए:
बेसिक OCR पाइपलाइन
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
उदाहरण 2: बैच प्रसंस्करण
दक्षता के लिए एक साथ कई छवियों को संसाधित करें:
बैच प्रसंस्करण
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
उदाहरण 3: बाउंडिंग बॉक्स विज़ुअलाइज़ेशन
मूल छवि पर पहचाने गए टेक्स्ट बॉक्स खींचें:
परिणाम देखें
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
निष्कर्ष
Keras-OCR अपने तैयार-से-उपयोग पाइपलाइन के साथ पाठ निष्कर्षण को सरल बनाता है, जो इसे उन डेवलपर्स के लिए एक उत्कृष्ट विकल्प बनाता है जिन्हें जटिल सेटअप के बिना त्वरित, सटीक OCR की आवश्यकता होती है। Keras और TensorFlow के साथ इसका एकीकरण अनुकूलन की अनुमति देता है, जबकि बैच प्रसंस्करण स्केलेबिलिटी सुनिश्चित करता है।
चाहे आप दस्तावेज़ स्कैनर बना रहे हों, डेटा प्रविष्टि को स्वचालित कर रहे हों या सोशल मीडिया सामग्री का विश्लेषण कर रहे हों, Keras-OCR एक हल्का लेकिन शक्तिशाली समाधान प्रदान करता है।