PaddleOCR: বহুভাষিক টেক্সট এক্সট্রাকশনের জন্য শিল্প-শক্তির OCR

উচ্চ নির্ভুলতা এবং গতিতে ছবি এবং ডকুমেন্ট থেকে টেক্সট সনাক্ত করুন এবং চিনুন।

PaddleOCR API কি?

PaddleOCR পাইথন API হল অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) কাজের জন্য একটি শক্তিশালী এবং ব্যবহারে সহজ টুলকিট, যা ডেভেলপারদের উচ্চ নির্ভুলতার সাথে ছবি থেকে টেক্সট এক্সট্রাক্ট এবং বিশ্লেষণ করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে। PaddlePaddle ডিপ লার্নিং ফ্রেমওয়ার্কের উপর নির্মিত, PaddleOCR বিস্তৃত ভাষা সমর্থন করে এবং টেক্সট ডিটেকশন, রিকগনিশন এবং লেআউট অ্যানালাইসিসের জন্য প্রি-ট্রেন্ড মডেল সরবরাহ করে। এর স্বজ্ঞাত পাইথন ইন্টারফেসের সাহায্যে, ব্যবহারকারীরা দ্রুত তাদের অ্যাপ্লিকেশনে OCR ক্ষমতা সংহত করতে পারেন, তা ডকুমেন্ট ডিজিটাইজেশন, ফটো থেকে টেক্সট এক্সট্রাকশন বা স্বয়ংক্রিয় ডেটা প্রসেসিংয়ের জন্য হোক। PaddleOCR পাইথন API তাদের জন্য আদর্শ যারা ন্যূনতম সেটআপ এবং সর্বাধিক নমনীয়তার সাথে শক্তিশালী OCR সমাধান বাস্তবায়ন করতে চান।

PaddleOCR-এর প্রধান সুবিধাগুলি:

বহুভাষিক সমর্থন: ১০০+ ভাষার জন্য প্রি-ট্রেন্ড মডেল (চীনা, ইংরেজি, আরবি ইত্যাদি সহ)
উচ্চ নির্ভুলতা: PP-OCR সিরিজের মডেলগুলি ICDAR ডেটাসেটে শীর্ষস্থানীয় বেঞ্চমার্ক অর্জন করে
এন্ড-টু-এন্ড পাইপলাইন: টেক্সট ডিটেকশন থেকে রিকগনিশন এবং লেআউট অ্যানালাইসিস পর্যন্ত
লাইটওয়েট মডেল: মোবাইল এবং এজ ডিভাইসের জন্য অপ্টিমাইজ করা (যেমন PP-OCRv3)

স্ক্যান করা ডকুমেন্ট থেকে শুরু করে রাস্তার সাইন পর্যন্ত, PaddleOCR শিল্প-নেতৃত্বাধীন নির্ভুলতার সাথে টেক্সট এক্সট্রাক্ট করে।

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

কেন PaddleOCR বেছে নেবেন?

ওপেন-সোর্স এক্সিলেন্স: ৩০,০০০+ GitHub স্টার এবং সক্রিয় কমিউনিটি অবদান
বহুমুখী ডেপ্লয়মেন্ট: পাইথন, সি++, এবং মোবাইল প্ল্যাটফর্ম (অ্যান্ড্রয়েড/আইওএস) সমর্থন করে
লেআউট অ্যানালাইসিস: জটিল ডকুমেন্টে টেক্সট রিজিয়ন, টেবিল এবং ফিগার সনাক্ত করে
ক্রমাগত আপডেট: নিয়মিত মডেল রিলিজ (যেমন PP-OCRv4)
বাণিজ্যিক-বান্ধব: এন্টারপ্রাইজ ব্যবহারের জন্য Apache 2.0 লাইসেন্স

ইন্সটলেশন

PaddleOCR-এর জন্য পাইথন ৩.৭+ প্রয়োজন এবং pip এর মাধ্যমে ইন্সটল করা যেতে পারে। GPU সাপোর্টের জন্য CUDA/cuDNN প্রয়োজন।

বেসিক ইন্সটলেশন


pip install paddleocr paddlepaddle  #CPU সংস্করণ

GPU এক্সিলারেশনের জন্য:

GPU সাপোর্ট


pip install paddleocr paddlepaddle-gpu  #CUDA 10.2+ প্রয়োজন

নোট: প্রথম ব্যবহারে প্রি-ট্রেন্ড মডেলগুলি স্বয়ংক্রিয়ভাবে ডাউনলোড হবে বা ম্যানুয়ালি paddleocr --lang en এর মাধ্যমে ডাউনলোড করা যাবে।

কোড উদাহরণ

এই উদাহরণগুলির সাথে PaddleOCR-এর ক্ষমতা অন্বেষণ করুন। সব উদাহরণ ধরে নেয় যে আপনি ইংরেজি মডেল ইন্সটল করেছেন।

PaddleOCR পাইথন

উদাহরণ ১: বেসিক OCR

PaddleOCR-এর ডিফল্ট মডেল ব্যবহার করে একটি ছবি থেকে টেক্সট এক্সট্রাক্ট করতে, আপনাকে শুধু OCR ইঞ্জিন স্ট্যান্ডার্ড কনফিগারেশনের সাথে ইনিশিয়ালাইজ করতে হবে, যেখানে ইংরেজি সাপোর্ট এবং নির্ভুলতা উন্নত করার জন্য অ্যাঙ্গেল ক্লাসিফিকেশন অন্তর্ভুক্ত। PaddleOCR টেক্সট ডিটেকশন, রিকগনিশন এবং ক্লাসিফিকেশনের জন্য প্রি-ট্রেন্ড মডেল ব্যবহার করে ইনপুট ইমেজ থেকে টেক্সট সনাক্ত এবং ব্যাখ্যা করে। ইমেজ প্রসেস করা হলে, OCR ইঞ্জিন সনাক্ত করা টেক্সট তার অবস্থান এবং প্রতিটি ফলাফলের জন্য আত্মবিশ্বাস স্কোর সহ রিটার্ন করে। এই সেটআপ কাস্টম মডেল ট্রেনিং বা জটিল কনফিগারেশন ছাড়াই ইমেজ থেকে টেক্সচুয়াল কন্টেন্ট এক্সট্রাক্ট করার একটি দ্রুত এবং কার্যকর উপায় প্রদান করে।

ইমেজ OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # ইনিশিয়ালাইজ
result = ocr.ocr('image.jpg', cls=True)  # ইমেজ প্রসেস

# চেনা টেক্সট প্রিন্ট করুন
for line in result:
    print(line[-1][0])  # টেক্সট কন্টেন্ট

আউটপুট অন্তর্ভুক্ত:

টেক্সট কন্টেন্ট এবং আত্মবিশ্বাস স্কোর
বাউন্ডিং বক্স কোঅর্ডিনেট

উদাহরণ ২: ব্যাচ প্রসেসিং

PaddleOCR ব্যবহার করে একাধিক ইমেজ দক্ষতার সাথে প্রসেস করতে, আপনি ব্যাচ প্রসেসিং টেকনিক ব্যবহার করতে পারেন যা রিডান্ডেন্ট ইনিশিয়ালাইজেশন মিনিমাইজ করে এবং পারফরম্যান্স অপ্টিমাইজ করে। প্রতিটি ইমেজের জন্য OCR ইঞ্জিন ইনিশিয়ালাইজ করার পরিবর্তে, OCR মডেলের একটি সিঙ্গেল ইন্সট্যান্স ক্রিয়েট করে সব ইমেজ ইনপুটের জন্য রিইউজ করার পরামর্শ দেওয়া হয়। এই অ্যাপ্রোচ প্রসেসিং টাইম এবং রিসোর্স কনজাম্পশন উল্লেখযোগ্যভাবে কমায়। OCR ইঞ্জিনে ইমেজ পাথের একটি লিস্ট লুপে ফিড করে বা প্যারালাল প্রসেসিং ব্যবহার করে (যখন উপযুক্ত), আপনি ইমেজের বড় সেট থেকে দ্রুত এবং কার্যকরভাবে টেক্সট এক্সট্রাক্ট করতে পারেন, যা ডকুমেন্ট ব্যাচ, স্ক্যানড আর্কাইভ বা বাল্ক ইমেজ অ্যানালাইসিস জড়িত ওয়ার্কফ্লোর জন্য আদর্শ।

ব্যাচ OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # প্যারালাল প্রসেসিং

উদাহরণ ৩: লেআউট অ্যানালাইসিস

PaddleOCR শুধু টেক্সট চেনার জন্যই নয়, টেক্সটের স্পেসিফিক রিজিয়ন সনাক্ত করতে এবং টেবিলের মতো স্ট্রাকচার্ড এলিমেন্ট ডিটেক্ট করতেও ব্যবহার করা যেতে পারে। সিস্টেম প্রথমে টেক্সট এরিয়া ডিটেকশন মডেলের মাধ্যমে টেক্সট এরিয়া লোকেট করে, যা প্রতিটি টেক্সট রিজিয়নকে বাউন্ডিং বক্সের সাথে আউটলাইন করে, ব্যবহারকারীদের ইমেজের মধ্যে টেক্সট কোথায় অবস্থিত তা বুঝতে সাহায্য করে। আরও কমপ্লেক্স লেআউটের জন্য, যেমন ফর্ম বা টেবিল সম্বলিত ডকুমেন্ট, PaddleOCR লেআউট অ্যানালাইসিস এবং টেবিল স্ট্রাকচার রিকগনিশন সাপোর্ট করে। এটি সারি, কলাম এবং সেল বাউন্ডারি ডিটেকশন সক্ষম করে, ট্যাবুলার ডেটা অর্গানাইজড ফরম্যাটে এক্সট্রাক্ট করা সম্ভব করে তোলে। এই ক্ষমতা স্ক্যানড ডকুমেন্ট, ইনভয়েস বা স্প্রেডশিট ডিজিটাইজ করার জন্য বিশেষভাবে উপযোগী যেখানে ফ্রি-ফরম টেক্সট এবং ট্যাবুলার ডেটা একসাথে থাকে।

লেআউট ডিটেকশন


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

এডভান্সড ফিচার

PaddleOCR কমপ্লেক্স ওয়ার্কফ্লো সাপোর্ট করে:

কাস্টম ট্রেনিং: আপনার ডেটাতে মডেল ফাইন-টিউন করুন:
মডেল ট্রেনিং
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
মাল্টিল্যাঙ্গুয়েজ মিক্সিং: মিক্সড-ল্যাঙ্গুয়েজ ডকুমেন্ট প্রসেস করুন:
মাল্টিল্যাঙ্গুয়েজ OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF সাপোর্ট: সরাসরি PDF থেকে টেক্সট এক্সট্রাক্ট:
PDF প্রসেসিং
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

উপসংহার

PaddleOCR প্রোডাকশন-রেডি OCR প্রদান করে যার আছে অদ্বিতীয় বহুভাষিক সমর্থন এবং স্কেলেবিলিটি। জন্য আদর্শ:

ডকুমেন্ট ডিজিটাইজেশন: স্ক্যানড PDF, ইনভয়েস, রিসিপ্ট
মাল্টিল্যাঙ্গুয়েজ অ্যাপ্লিকেশন: পাসপোর্ট রিকগনিশন, বহুভাষিক বই
এজ ডেপ্লয়মেন্ট: মোবাইল অ্যাপস যেখানে ডিভাইসে OCR

PaddlePaddle-এর ডিপ লার্নিং ইকোসিস্টেমের সমর্থনে, PaddleOCR OCR নির্ভুলতা এবং দক্ষতায় বেঞ্চমার্ক স্থাপন করতে থাকে।