trOCR: ट्रांसफॉर्मर के साथ पाठ पहचान में क्रांति

मुद्रित, हस्तलिखित और बहुभाषी सामग्री से मानव-स्तरीय सटीकता के साथ पाठ निष्कर्षण प्राप्त करें

trOCR API क्या है?

trOCR (ट्रांसफॉर्मर-आधारित ऑप्टिकल कैरेक्टर रिकग्निशन) Microsoft का एक अभिनव OCR मॉडल है जो पाठ पहचान में अद्वितीय सटीकता प्रदान करने के लिए ट्रांसफॉर्मर आर्किटेक्चर की शक्ति का उपयोग करता है। पारंपरिक OCR सिस्टम के विपरीत जो केवल कन्वोल्यूशनल नेटवर्क पर निर्भर करते हैं, trOCR विज़न ट्रांसफॉर्मर (ViTs) को सीक्वेंस-टू-सीक्वेंस मॉडलिंग के साथ जोड़ता है, जिससे यह पाठ में संदर्भ और स्थानिक संबंधों को समझ सकता है - यहां तक कि हस्तलिखित नोट्स, कम रिज़ॉल्यूशन स्कैन या जटिल लिपियों जैसी चुनौतीपूर्ण इनपुट के लिए भी।

trOCR के प्रमुख लाभ:

मानव-जैसी पहचान: हस्तलिखित और विकृत पाठ पढ़ने में उत्कृष्ट
बहुभाषी समर्थन: अंग्रेजी, फ्रेंच, जर्मन और अधिक के लिए पूर्व-प्रशिक्षित मॉडल
एंड-टू-एंड प्रक्रिया: पाठ पहचान और निष्कर्षण को एक साथ जोड़ता है
सहज एकीकरण: Hugging Face के ट्रांसफॉर्मर लाइब्रेरी पर निर्मित

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

trOCR क्यों चुनें?

CNN-आधारित मॉडल से 15-20% अधिक सटीक
हस्तलिखित पाठ के लिए 90%+ सटीकता
न्यूनतम पूर्व-प्रसंस्करण आवश्यक
GPU पर कुशल प्रसंस्करण

स्थापना

trOCR के लिए PyTorch या TensorFlow और Hugging Face ट्रांसफॉर्मर लाइब्रेरी आवश्यक है:

PyTorch के साथ स्थापित करें (GPU अनुशंसित)


pip install transformers torch torchvision
pip install datasets  # फाइन-ट्यूनिंग के लिए वैकल्पिक

नोट: microsoft/trocr-base मॉडल को प्रति वेरिएंट (मुद्रित/हस्तलिखित) ~1.5GB डिस्क स्थान की आवश्यकता होती है। पर्याप्त स्टोरेज और RAM (बैच प्रसंस्करण के लिए 8GB+) सुनिश्चित करें।

कोड उदाहरण

हस्तलिखित पाठ पहचान

हस्तलेखन पहचान


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

image = Image.open("handwritten_note.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"निकाला गया पाठ: {text}")

मुद्रित दस्तावेज़ प्रसंस्करण

मुद्रित पाठ निष्कर्षण


from transformers import pipeline
from PIL import Image

ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("document.png").convert("RGB")
results = ocr(image)

for item in results:
    print(item['generated_text'])

उन्नत युक्तियाँ

छवि गुणवत्ता बेहतर करने के लिए OpenCV का उपयोग करें
विशिष्ट आवश्यकताओं के लिए मॉडल को अनुकूलित करें

अनुप्रयोग

ऐतिहासिक अभिलेखों का डिजिटलीकरण
चालान और कानूनी दस्तावेज़ प्रसंस्करण
सुगम्यता प्रौद्योगिकियाँ