Keras এবং TensorFlow দিয়ে এন্ড-টু-এন্ড OCR পাইপলাইন
পাইথনে সহজ কিন্তু শক্তিশালী টেক্সট স্বীকৃতির জন্য Keras-OCR ব্যবহার করুন।
Keras-OCR API কি?
Keras-OCR একটি উচ্চ-স্তরের, ওপেন-সোর্স পাইথন লাইব্রেরি যা Keras এবং TensorFlow এর শক্তি ব্যবহার করে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) কাজগুলি সহজ করার জন্য ডিজাইন করা হয়েছে। প্রচলিত OCR সিস্টেমগুলির থেকে আলাদা, যেগুলির ব্যাপক কনফিগারেশন প্রয়োজন, Keras-OCR প্রি-ট্রেন্ড মডেল সহ একটি এন্ড-টু-এন্ড পাইপলাইন অফার করে টেক্সট ডিটেকশন (CRAFT অ্যালগরিদম ব্যবহার করে) এবং টেক্সট রিকগনিশন (CRNN মডেলের মাধ্যমে)। এই সংমিশ্রণ ডেভেলপারদেরকে মাত্র কয়েক লাইন কোড দিয়ে ছবি, স্ক্যান করা ডকুমেন্ট বা হাতে লেখা নোট থেকে টেক্সট এক্সট্র্যাক্ট করতে দেয়।
লাইব্রেরিটি বাস্তব-বিশ্বের ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা হয়েছে, যার মধ্যে রয়েছে:
- ডকুমেন্ট ডিজিটাইজেশন: কাগজের ডকুমেন্ট বা PDF ফাইলকে সার্চেবল টেক্সটে রূপান্তর করুন।
- অটোমেটেড ডেটা এন্ট্রি: ইনভয়েস, রিসিপ্ট বা ফর্ম থেকে টেক্সট এক্সট্র্যাক্ট করুন।
- অ্যাক্সেসিবিলিটি টুলস: ওয়েব অ্যাপ্লিকেশনে ইমেজের জন্য অল্টারনেটিভ টেক্সট জেনারেট করুন।
- সোশ্যাল মিডিয়া অ্যানালাইসিস: মিম বা ইউজার-জেনারেটেড কন্টেন্টে এম্বেড করা টেক্সট প্রসেস করুন।
ব্যাচ প্রসেসিং এবং অপশনাল GPU এক্সিলারেশনের বিল্ট-ইন সাপোর্টের সাথে, Keras-OCR ব্যবহারের সহজতা এবং পারফরম্যান্সের মধ্যে ভারসাম্য বজায় রাখে, যা প্রোটোটাইপিং এবং প্রোডাকশন ডেপ্লয়মেন্ট উভয়ের জন্য আদর্শ।
Keras-OCR এর মূল বৈশিষ্ট্য
- প্রি-ট্রেন্ড মডেল: CRAFT (ডিটেক্টর) এবং CRNN (রিকগনাইজার) সাথে সাথে ব্যবহারের জন্য অন্তর্ভুক্ত।
- সহজ সেটআপ: মিনিমাল ডিপেন্ডেন্সি (Keras, TensorFlow, OpenCV)।
- ব্যাচ প্রসেসিং: একাধিক ইমেজ প্যারালালে প্রসেস করুন দক্ষতার জন্য।
- কাস্টম ট্রেনিং: আপনার নিজের ডেটাসেটে মডেল ফাইন-টিউন করুন।
- GPU প্রয়োজন নেই: CPU তে চলতে পারে তবে GPU দিয়ে ত্বরান্বিত হয়।
- বাউন্ডিং বক্স আউটপুট: স্পেসিয়াল অ্যানালাইসিসের জন্য টেক্সট সহ কোঅর্ডিনেট রিটার্ন করে।
- ওপেন সোর্স: ফ্রি, কমিউনিটি-ড্রিভেন, এবং MIT লাইসেন্সড।
ইনস্টলেশন
pip ব্যবহার করে Keras-OCR ইনস্টল করুন (Python 3.6+ প্রয়োজন):
Keras-OCR ইনস্টল করুন
pip install keras-ocr
GPU সাপোর্টের জন্য, নিশ্চিত করুন যে TensorFlow GPU সংস্করণ ইনস্টল করা আছে:
TensorFlow GPU ইনস্টল করুন
pip install tensorflow-gpu
কোড উদাহরণ
নিচে Keras-OCR ব্যবহার করে ছবি থেকে টেক্সট এক্সট্র্যাক্ট করার ব্যবহারিক উদাহরণ দেওয়া হল।
উদাহরণ ১: বেসিক টেক্সট ডিটেকশন এবং রিকগনিশন
এই উদাহরণটি দেখায় কিভাবে প্রি-ট্রেন্ড পাইপলাইন ব্যবহার করে একটি ছবি থেকে টেক্সট এক্সট্র্যাক্ট করতে হয়:
বেসিক OCR পাইপলাইন
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)
উদাহরণ ২: ব্যাচ প্রসেসিং
দক্ষতার জন্য একাধিক ছবি একসাথে প্রসেস করুন:
ব্যাচ প্রসেসিং
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
print(prediction)
উদাহরণ ৩: বাউন্ডিং বক্স ভিজুয়ালাইজেশন
আসল ছবিতে সনাক্ত করা টেক্সট বক্স আঁকুন:
ফলাফল ভিজুয়ালাইজ করুন
import matplotlib.pyplot as plt
import keras_ocr
pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()
উপসংহার
Keras-OCR এর রেডি-টু-ইউজ পাইপলাইন দিয়ে টেক্সট এক্সট্র্যাকশনকে সহজ করে তোলে, যা জটিল সেটআপ ছাড়াই দ্রুত, সঠিক OCR প্রয়োজন এমন ডেভেলপারদের জন্য একটি দুর্দান্ত পছন্দ। Keras এবং TensorFlow এর সাথে এর ইন্টিগ্রেশন কাস্টমাইজেশন সম্ভব করে, যখন ব্যাচ প্রসেসিং স্কেলেবিলিটি নিশ্চিত করে।
আপনি ডকুমেন্ট স্ক্যানার বানাচ্ছেন, ডেটা এন্ট্রি অটোমেট করছেন বা সোশ্যাল মিডিয়া কন্টেন্ট অ্যানালাইজ করছেন না কেন, Keras-OCR একটি লাইটওয়েট কিন্তু শক্তিশালী সমাধান প্রদান করে।