Keras এবং TensorFlow দিয়ে এন্ড-টু-এন্ড OCR পাইপলাইন

পাইথনে সহজ কিন্তু শক্তিশালী টেক্সট স্বীকৃতির জন্য Keras-OCR ব্যবহার করুন।

Keras-OCR API কি?

Keras-OCR একটি উচ্চ-স্তরের, ওপেন-সোর্স পাইথন লাইব্রেরি যা Keras এবং TensorFlow এর শক্তি ব্যবহার করে অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) কাজগুলি সহজ করার জন্য ডিজাইন করা হয়েছে। প্রচলিত OCR সিস্টেমগুলির থেকে আলাদা, যেগুলির ব্যাপক কনফিগারেশন প্রয়োজন, Keras-OCR প্রি-ট্রেন্ড মডেল সহ একটি এন্ড-টু-এন্ড পাইপলাইন অফার করে টেক্সট ডিটেকশন (CRAFT অ্যালগরিদম ব্যবহার করে) এবং টেক্সট রিকগনিশন (CRNN মডেলের মাধ্যমে)। এই সংমিশ্রণ ডেভেলপারদেরকে মাত্র কয়েক লাইন কোড দিয়ে ছবি, স্ক্যান করা ডকুমেন্ট বা হাতে লেখা নোট থেকে টেক্সট এক্সট্র্যাক্ট করতে দেয়।

লাইব্রেরিটি বাস্তব-বিশ্বের ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা হয়েছে, যার মধ্যে রয়েছে:

ডকুমেন্ট ডিজিটাইজেশন: কাগজের ডকুমেন্ট বা PDF ফাইলকে সার্চেবল টেক্সটে রূপান্তর করুন।
অটোমেটেড ডেটা এন্ট্রি: ইনভয়েস, রিসিপ্ট বা ফর্ম থেকে টেক্সট এক্সট্র্যাক্ট করুন।
অ্যাক্সেসিবিলিটি টুলস: ওয়েব অ্যাপ্লিকেশনে ইমেজের জন্য অল্টারনেটিভ টেক্সট জেনারেট করুন।
সোশ্যাল মিডিয়া অ্যানালাইসিস: মিম বা ইউজার-জেনারেটেড কন্টেন্টে এম্বেড করা টেক্সট প্রসেস করুন।

ব্যাচ প্রসেসিং এবং অপশনাল GPU এক্সিলারেশনের বিল্ট-ইন সাপোর্টের সাথে, Keras-OCR ব্যবহারের সহজতা এবং পারফরম্যান্সের মধ্যে ভারসাম্য বজায় রাখে, যা প্রোটোটাইপিং এবং প্রোডাকশন ডেপ্লয়মেন্ট উভয়ের জন্য আদর্শ।

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Keras-OCR এর মূল বৈশিষ্ট্য

প্রি-ট্রেন্ড মডেল: CRAFT (ডিটেক্টর) এবং CRNN (রিকগনাইজার) সাথে সাথে ব্যবহারের জন্য অন্তর্ভুক্ত।
সহজ সেটআপ: মিনিমাল ডিপেন্ডেন্সি (Keras, TensorFlow, OpenCV)।
ব্যাচ প্রসেসিং: একাধিক ইমেজ প্যারালালে প্রসেস করুন দক্ষতার জন্য।
কাস্টম ট্রেনিং: আপনার নিজের ডেটাসেটে মডেল ফাইন-টিউন করুন।
GPU প্রয়োজন নেই: CPU তে চলতে পারে তবে GPU দিয়ে ত্বরান্বিত হয়।
বাউন্ডিং বক্স আউটপুট: স্পেসিয়াল অ্যানালাইসিসের জন্য টেক্সট সহ কোঅর্ডিনেট রিটার্ন করে।
ওপেন সোর্স: ফ্রি, কমিউনিটি-ড্রিভেন, এবং MIT লাইসেন্সড।

ইনস্টলেশন

pip ব্যবহার করে Keras-OCR ইনস্টল করুন (Python 3.6+ প্রয়োজন):

Keras-OCR ইনস্টল করুন


pip install keras-ocr

GPU সাপোর্টের জন্য, নিশ্চিত করুন যে TensorFlow GPU সংস্করণ ইনস্টল করা আছে:

TensorFlow GPU ইনস্টল করুন


pip install tensorflow-gpu

কোড উদাহরণ

নিচে Keras-OCR ব্যবহার করে ছবি থেকে টেক্সট এক্সট্র্যাক্ট করার ব্যবহারিক উদাহরণ দেওয়া হল।

Keras-OCR টেক্সট ডিটেকশন

উদাহরণ ১: বেসিক টেক্সট ডিটেকশন এবং রিকগনিশন

এই উদাহরণটি দেখায় কিভাবে প্রি-ট্রেন্ড পাইপলাইন ব্যবহার করে একটি ছবি থেকে টেক্সট এক্সট্র্যাক্ট করতে হয়:

বেসিক OCR পাইপলাইন


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

উদাহরণ ২: ব্যাচ প্রসেসিং

দক্ষতার জন্য একাধিক ছবি একসাথে প্রসেস করুন:

ব্যাচ প্রসেসিং


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

উদাহরণ ৩: বাউন্ডিং বক্স ভিজুয়ালাইজেশন

আসল ছবিতে সনাক্ত করা টেক্সট বক্স আঁকুন:

ফলাফল ভিজুয়ালাইজ করুন


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

উপসংহার

Keras-OCR এর রেডি-টু-ইউজ পাইপলাইন দিয়ে টেক্সট এক্সট্র্যাকশনকে সহজ করে তোলে, যা জটিল সেটআপ ছাড়াই দ্রুত, সঠিক OCR প্রয়োজন এমন ডেভেলপারদের জন্য একটি দুর্দান্ত পছন্দ। Keras এবং TensorFlow এর সাথে এর ইন্টিগ্রেশন কাস্টমাইজেশন সম্ভব করে, যখন ব্যাচ প্রসেসিং স্কেলেবিলিটি নিশ্চিত করে।

আপনি ডকুমেন্ট স্ক্যানার বানাচ্ছেন, ডেটা এন্ট্রি অটোমেট করছেন বা সোশ্যাল মিডিয়া কন্টেন্ট অ্যানালাইজ করছেন না কেন, Keras-OCR একটি লাইটওয়েট কিন্তু শক্তিশালী সমাধান প্রদান করে।