trOCR: ট্রান্সফরমার দিয়ে টেক্সট স্বীকৃতিতে বিপ্লব

মুদ্রিত, হস্তলিখিত এবং বহুভাষিক সামগ্রী থেকে মানব-স্তরের নির্ভুলতায় টেক্সট নিষ্কাশন করুন।

trOCR API কি?

trOCR (ট্রান্সফরমার-ভিত্তিক অপটিক্যাল ক্যারেক্টার রিকগনিশন) হল Microsoft-এর একটি যুগান্তকারী OCR মডেল যা টেক্সট স্বীকৃতিতে ট্রান্সফরমার আর্কিটেকচারের শক্তি কাজে লাগায়। প্রচলিত OCR সিস্টেমের বিপরীতে যা শুধুমাত্র কনভোলিউশনাল নেটওয়ার্কের উপর নির্ভর করে, trOCR ভিশন ট্রান্সফরমার (ViT) এবং সিকোয়েন্স-টু-সিকোয়েন্স মডেলিং একীভূত করে, যা এটিকে টেক্সটের প্রসঙ্গ এবং স্থানিক সম্পর্ক বুঝতে সক্ষম করে - এমনকি হস্তলিখিত নোট, কম রেজোলিউশনের স্ক্যান বা জটিল স্ক্রিপ্টের মতো চ্যালেঞ্জিং ইনপুটের জন্যও।

trOCR-এর প্রধান সুবিধাগুলি হল:

মানবসদৃশ স্বীকৃতি: হস্তলিখিত এবং বিকৃত টেক্সট পড়তে উৎকৃষ্ট যেখানে প্রচলিত OCR ব্যর্থ হয়
বহুভাষিক দক্ষতা: প্রাক-প্রশিক্ষিত মডেলগুলি ইংরেজি, ফরাসি, জার্মান এবং আরও অনেক ভাষা সমর্থন করে
এন্ড-টু-এন্ড পাইপলাইন: টেক্সট সনাক্তকরণ এবং স্বীকৃতি একক প্রক্রিয়ায় সমন্বিত
নির্বিঘ্ন সংহতকরণ: Hugging Face-এর ট্রান্সফরমার লাইব্রেরির উপর নির্মিত

ঐতিহাসিক আর্কাইভ ডিজিটাইজ করা থেকে শুরু করে চালান প্রসেসিং পর্যন্ত, trOCR বাস্তব-বিশ্বের অ্যাপ্লিকেশনে OCR কর্মক্ষমতার জন্য একটি নতুন মান নির্ধারণ করে।

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

কেন trOCR বেছে নেবেন?

ট্রান্সফরমার-চালিত: IAM হ্যান্ডরাইটিং-এর মতো বেঞ্চমার্ক ডেটাসেটে CNN-ভিত্তিক মডেলের চেয়ে 15-20% বেশি নির্ভুলতা
হস্তলিখিত বিশেষজ্ঞ: trocr-base-handwritten মডেলটি হস্তলিখিত টেক্সটে 90%+ নির্ভুলতা অর্জন করে
ন্যূনতম প্রিপ্রসেসিং: ফন্ট, অভিযোজন এবং ব্যাকগ্রাউন্ড নয়েজের তারতম্যের প্রতি সহনশীল
স্কেলযোগ্য ইনফারেন্স: GPU-তে প্রায়-রৈখিক স্পিডআপ সহ ইমেজের ব্যাচ প্রসেস করে
কাস্টমাইজযোগ্য: ডোমেইন-স্পেসিফিক ডেটার জন্য ফাইন-টিউন করুন (যেমন মেডিকেল প্রেসক্রিপশন, রিসিপ্ট)

ইনস্টলেশন

trOCR-এর জন্য PyTorch বা TensorFlow এবং Hugging Face ট্রান্সফরমার লাইব্রেরি প্রয়োজন। সর্বোত্তম কর্মক্ষমতার জন্য, আমরা GPU-সক্ষম পরিবেশ ব্যবহারের সুপারিশ করি:

PyTorch দিয়ে ইনস্টল করুন (GPU সুপারিশকৃত)


pip install transformers torch torchvision
pip install datasets  # ফাইন-টিউনিংয়ের জন্য ঐচ্ছিক

দ্রষ্টব্য: microsoft/trocr-base মডেলগুলির জন্য প্রতি বৈকল্পিকে (মুদ্রিত/হস্তলিখিত) ~1.5GB ডিস্ক স্পেস প্রয়োজন। পর্যাপ্ত স্টোরেজ এবং RAM (ব্যাচ প্রসেসিংয়ের জন্য 8GB+) নিশ্চিত করুন।

কোড উদাহরণ

এই ব্যবহারিক বাস্তবায়নের মাধ্যমে trOCR-এর ক্ষমতা অন্বেষণ করুন। সমস্ত উদাহরণ ধরে নেয় যে আপনি প্রয়োজনীয় নির্ভরতা ইনস্টল করেছেন।

trOCR হস্তলিখিত এবং মুদ্রিত টেক্সট প্রসেস করছে

উদাহরণ 1: হস্তলিখিত টেক্সট স্বীকৃতি

এই উদাহরণটি হস্তলিখিত টেক্সট ডিকোড করার trOCR-এর শক্তি প্রদর্শন করে। মডেলটি (trocr-base-handwritten) IAM হ্যান্ডরাইটিং ডাটাবেসে প্রশিক্ষিত, যা এটিকে নোট, চিঠি বা ঐতিহাসিক নথির জন্য আদর্শ করে তোলে।

হস্তলিখিত স্বীকৃতি


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# প্রসেসর এবং মডেল লোড করুন (হস্তলিখিত-স্পেসিফিক)
processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

# ইমেজ খুলুন এবং প্রিপ্রসেস করুন
image = Image.open("handwritten_note.jpg").convert("RGB")  # RGB ফরম্যাট নিশ্চিত করুন
pixel_values = processor(image, return_tensors="pt").pixel_values  # নরমালাইজ এবং রিসাইজ

# টেক্সট প্রেডিকশন জেনারেট করুন
generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"নিষ্কাশিত টেক্সট: {text}")

পরামর্শ: হস্তলিখিত টেক্সটের জন্য সেরা ফলাফলের জন্য:

300+ DPI স্ক্যান ব্যবহার করুন
ছায়া এড়াতে যথাযথ আলো নিশ্চিত করুন
সম্ভব হলে টেক্সট অঞ্চলে ক্রপ করুন

উদাহরণ 2: মুদ্রিত ডকুমেন্ট প্রসেসিং

টাইপ বা মুদ্রিত টেক্সটের জন্য (বই, চালান, ইত্যাদি), trocr-base-printed মডেলটি প্রায় নিখুঁত নির্ভুলতা প্রদান করে। এই উদাহরণটি একটি স্ক্যান করা ডকুমেন্ট প্রসেস করার উপায় দেখায়:

মুদ্রিত টেক্সট নিষ্কাশন


from transformers import pipeline
from PIL import Image

# সরলতার জন্য Hugging Face পাইপলাইন ব্যবহার করুন
ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")

# ডকুমেন্ট প্রসেস করুন
image = Image.open("contract.png").convert("RGB")  # RGB-তে কনভার্ট করুন
results = ocr(image)

# স্ট্রাকচার্ড ফলাফল আউটপুট করুন
for idx, item in enumerate(results):
    print(f"পৃষ্ঠা {idx + 1}: {item['generated_text']}")

পারফরম্যান্স নোট: NVIDIA T4 GPU-তে, এটি ~3 পৃষ্ঠা/সেকেন্ড প্রসেস করে। বাল্ক অপারেশনের জন্য ব্যাচিং ব্যবহার করুন (উদাহরণ 3 দেখুন)।

উদাহরণ 3: দক্ষতার জন্য ব্যাচ প্রসেসিং

trOCR হার্ডওয়্যার ইউটিলাইজেশন সর্বাধিক করার জন্য ব্যাচ ইনফারেন্স সমর্থন করে। এই উদাহরণটি একাধিক ইমেজ সমান্তরালভাবে প্রসেস করে:

সমান্তরাল টেক্সট নিষ্কাশন


import torch
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# ইনিশিয়ালাইজ করুন
device = "cuda" if torch.cuda.is_available() else "cpu"
processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-printed").to(device)

# ব্যাচ প্রস্তুত করুন
image_paths = ["doc1.jpg", "doc2.jpg", "doc3.jpg"]
images = [Image.open(path).convert("RGB") for path in image_paths]

# ব্যাচ প্রসেস করুন
pixel_values = processor(images, return_tensors="pt").pixel_values.to(device)
generated_ids = model.generate(pixel_values)
texts = processor.batch_decode(generated_ids, skip_special_tokens=True)

# ফলাফল প্রদর্শন করুন
for path, text in zip(image_paths, texts):
    print(f"{path}: {text[:50]}...")  # প্রথম 50 অক্ষর দেখান

ব্যাচ সাইজিং গাইডেন্স:

GPU VRAM	সুপারিশকৃত ব্যাচ সাইজ
8GB	4-8 ইমেজ (1024x768)
16GB+	16-32 ইমেজ

উন্নত টিপস

trOCR-এর কর্মক্ষমতা আরও উন্নত করতে:

প্রিপ্রসেসিং: ডিস্কিউং এবং কন্ট্রাস্ট অ্যাডজাস্টমেন্টের জন্য OpenCV ব্যবহার করুন:

ইমেজ এনহ্যান্সমেন্ট


    import cv2
    img = cv2.imread("low_quality_doc.jpg")
    img = cv2.rotate(img, cv2.ROTATE_90_CLOCKWISE)  # ওরিয়েন্টেশন ঠিক করুন
    img = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]  # বাইনারাইজ করুন

ফাইন-টিউনিং: আপনার ডোমেইন-স্পেসিফিক ডেটার সাথে অ্যাডাপ্ট করুন:

ফাইন-টিউনিং স্ক্রিপ্ট


    from transformers import Seq2SeqTrainingArguments
    args = Seq2SeqTrainingArguments(
        output_dir="./trocr-finetuned",
        per_device_train_batch_size=8,
        num_train_epochs=3,
        save_steps=1000,
        evaluation_strategy="steps"
    )
    # সম্পূর্ণ ট্রেনিং সেটআপের জন্য Hugging Face ডক্স দেখুন

উপসংহার

trOCR ট্রান্সফরমার আর্কিটেকচার এবং কম্পিউটার ভিশনকে একত্রিত করে অপটিক্যাল ক্যারেক্টার রিকগনিশনে যা সম্ভব তা পুনর্ব্যক্ত করে। খসড়া নোট থেকে শুরু করে ঘন বহুভাষিক নথি পর্যন্ত সবকিছু পরিচালনা করার এর ক্ষমতা এটিকে অপরিহার্য করে তোলে:

আর্কাইভাল প্রকল্প: ঐতিহাসিক পান্ডুলিপি ডিজিটাইজ করুন সংরক্ষিত ফরম্যাটিং সহ
আইনি/চিকিৎসা ওয়ার্কফ্লো: অডিট ট্রেইল সহ সেনসিটিভ ডকুমেন্ট থেকে টেক্সট নিষ্কাশন করুন
অ্যাক্সেসিবিলিটি ইঞ্জিনিয়ারিং: স্কেলে ইমেজের জন্য অল্ট-টেক্সট জেনারেট করুন

Microsoft এবং ওপেন-সোর্স কমিউনিটির চলমান উন্নতির সাথে, trOCR টেক্সট রিকগনিশন প্রযুক্তির সীমানা ঠেলে দিয়ে চলেছে।