PaddleOCR: मल्टीलिंगुअल टेक्स्ट एक्सट्रैक्शन के लिए इंडस्ट्रियल-ग्रेड OCR

इमेजेज और डॉक्युमेंट्स से हाई प्रिसिजन और स्पीड के साथ टेक्स्ट डिटेक्ट और रिकग्नाइज़ करें

PaddleOCR API क्या है?

PaddleOCR पायथन API ऑप्टिकल करैक्टर रिकग्निशन (OCR) टास्क्स के लिए एक पावरफुल और यूजर-फ्रेंडली टूलकिट है जो डेवलपर्स को इमेजेज से हाई एक्यूरेसी के साथ टेक्स्ट एक्सट्रैक्ट और एनालाइज करने में मदद करता है। PaddlePaddle डीप लर्निंग फ्रेमवर्क पर बिल्ट, PaddleOCR कई भाषाओं को सपोर्ट करता है और टेक्स्ट डिटेक्शन, रिकग्निशन और लेआउट एनालिसिस के लिए प्री-ट्रेंड मॉडल प्रदान करता है। इसके इंट्यूटिव पायथन इंटरफेस की मदद से यूजर्स OCR कैपेबिलिटीज को अपने एप्लिकेशन्स में आसानी से इंटीग्रेट कर सकते हैं, चाहे वह डॉक्युमेंट डिजिटाइजेशन, फोटोज से टेक्स्ट एक्सट्रैक्शन या ऑटोमेटेड डेटा प्रोसेसिंग के लिए हो।

PaddleOCR के मुख्य लाभ:

मल्टीलिंगुअल सपोर्ट: 100+ भाषाओं के लिए प्री-ट्रेंड मॉडल (चाइनीज, इंग्लिश, अरबी आदि)
हाई एक्यूरेसी: PP-OCR सीरीज मॉडल ICDAR डेटासेट्स पर टॉप-टायर परफॉर्मेंस देते हैं
एंड-टू-एंड पाइपलाइन: टेक्स्ट डिटेक्शन से लेकर रिकग्निशन और लेआउट एनालिसिस तक
लाइटवेट मॉडल: मोबाइल और एज डिवाइसेज के लिए ऑप्टिमाइज्ड (जैसे PP-OCRv3)

स्कैन्ड डॉक्युमेंट्स से लेकर स्ट्रीट साइन्स तक, PaddleOCR इंडस्ट्री-लीडिंग प्रिसिजन के साथ टेक्स्ट एक्सट्रैक्ट करता है

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

PaddleOCR क्यों चुनें?

ओपन-सोर्स एक्सीलेंस: 30,000+ GitHub स्टार्स और एक्टिव कम्युनिटी कॉन्ट्रिब्यूशन्स
वर्सेटाइल डिप्लॉयमेंट: पायथन, C++, और मोबाइल प्लेटफॉर्म्स (Android/iOS) सपोर्ट
लेआउट एनालिसिस: कॉम्प्लेक्स डॉक्युमेंट्स में टेक्स्ट रीजन्स, टेबल्स और फिगर्स की पहचान करता है
कंटीन्यूअस अपडेट्स: रेगुलर मॉडल रिलीजेज (जैसे PP-OCRv4)
कमर्शियल-फ्रेंडली: एंटरप्राइज यूज के लिए Apache 2.0 लाइसेंस

इंस्टालेशन

PaddleOCR को पायथन 3.7+ की आवश्यकता होती है और इसे pip के जरिए इंस्टॉल किया जा सकता है। GPU सपोर्ट के लिए CUDA/cuDNN चाहिए

बेसिक इंस्टालेशन


pip install paddleocr paddlepaddle  #CPU वर्जन

GPU एक्सेलेरेशन के लिए:

GPU सपोर्ट


pip install paddleocr paddlepaddle-gpu  #CUDA 10.2+ रिक्वायर्ड

नोट: पहले यूज पर प्री-ट्रेंड मॉडल्स ऑटोमैटिकली डाउनलोड हो जाते हैं या मैन्युअली paddleocr --lang en के जरिए डाउनलोड किए जा सकते हैं

कोड उदाहरण

इन उदाहरणों के साथ PaddleOCR की क्षमताओं को एक्सप्लोर करें। सभी मानते हैं कि आपने इंग्लिश मॉडल इंस्टॉल किया है

PaddleOCR पायथन

उदाहरण 1: बेसिक OCR

डिफॉल्ट मॉडल्स का उपयोग करके PaddleOCR के साथ इमेज से टेक्स्ट एक्सट्रैक्ट करने के लिए, आपको सिर्फ स्टैंडर्ड कॉन्फिगरेशन के साथ OCR इंजन को इनिशियलाइज़ करना होगा, जिसमें इंग्लिश और एंगल क्लासिफिकेशन सपोर्ट शामिल है जो एक्यूरेसी को इम्प्रूव करता है। PaddleOCR इनपुट इमेज से टेक्स्ट को आइडेंटिफाई और इंटरप्रेट करने के लिए प्री-ट्रेंड डिटेक्शन, रिकग्निशन और क्लासिफिकेशन मॉडल्स का उपयोग करता है। एक बार इमेज प्रोसेस्ड हो जाने के बाद, OCR इंजन डिटेक्टेड टेक्स्ट को उसकी पोजीशन और कॉन्फिडेंस स्कोर के साथ रिटर्न करता है। यह सेटअप कस्टम मॉडल ट्रेनिंग या कॉम्प्लेक्स कॉन्फिगरेशन के बिना इमेजेज से टेक्स्ट कॉन्टेंट एक्सट्रैक्ट करने का क्विक और एफिशिएंट तरीका प्रदान करता है।

इमेज OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # इनिशियलाइज़
result = ocr.ocr('image.jpg', cls=True)  # इमेज प्रोसेस

# रिकग्नाइज़्ड टेक्स्ट प्रिंट करें
for line in result:
    print(line[-1][0])  # टेक्स्ट कॉन्टेंट

आउटपुट में शामिल:

टेक्स्ट कॉन्टेंट और कॉन्फिडेंस स्कोर
बाउंडिंग बॉक्स कोऑर्डिनेट्स

उदाहरण 2: बैच प्रोसेसिंग

PaddleOCR का उपयोग करके मल्टीपल इमेजेज को एफिशिएंटली प्रोसेस करने के लिए, आप बैच प्रोसेसिंग टेक्निक्स का फायदा उठा सकते हैं जो रिडंडेंट इनिशियलाइजेशन को मिनिमाइज़ करते हैं और परफॉरमेंस को ऑप्टिमाइज़ करते हैं। प्रत्येक इमेज के लिए OCR इंजन को अलग से इनिशियलाइज़ करने के बजाय, OCR मॉडल का सिंगल इंस्टेंस बनाकर उसे सभी इमेज इनपुट्स के लिए रीयूज करने की रिकमेंड की जाती है। यह अप्रोच प्रोसेसिंग टाइम और रिसोर्स कंजम्प्शन को साइनिफिकेंटली रिड्यूस करती है। इमेज पाथ्स की लिस्ट को OCR इंजन को लूप में या पैरेलल प्रोसेसिंग (जहां अप्लाइकेबल) के जरिए फीड करके, आप बड़ी संख्या में इमेजेज से टेक्स्ट को जल्दी और प्रभावी ढंग से एक्सट्रैक्ट कर सकते हैं, जो डॉक्युमेंट बैचेस, स्कैन्ड आर्काइव्स या बल्क इमेज एनालिसिस वाले वर्कफ्लो के लिए आदर्श है।

बैच OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # पैरेलल प्रोसेसिंग

उदाहरण 3: लेआउट एनालिसिस

PaddleOCR का उपयोग सिर्फ टेक्स्ट रिकग्निशन के लिए ही नहीं बल्कि टेक्स्ट के स्पेसिफिक रीजन्स की आइडेंटिफिकेशन और टेबल्स जैसे स्ट्रक्चर्ड एलिमेंट्स की डिटेक्शन के लिए भी किया जा सकता है। सिस्टम पहले अपने डिटेक्शन मॉडल के जरिए टेक्स्ट एरियाज को लोकेट करता है, जो प्रत्येक टेक्स्ट रीजन को बाउंडिंग बॉक्सेज के साथ आउटलाइन करता है, जिससे यूजर्स को इमेज के अंदर टेक्स्ट की लोकेशन समझने में मदद मिलती है। अधिक कॉम्प्लेक्स लेआउट्स जैसे फॉर्म्स या टेबल्स वाले डॉक्युमेंट्स के लिए, PaddleOCR लेआउट एनालिसिस और टेबल स्ट्रक्चर रिकग्निशन को सपोर्ट करता है। यह रोज़, कॉलम्स और सेल बाउंड्रीज की डिटेक्शन को एनेबल करता है, जिससे टैब्युलर डेटा को ऑर्गनाइज्ड फॉर्मेट में एक्सट्रैक्ट करना पॉसिबल होता है। ऐसी कैपेबिलिटीज स्कैन्ड डॉक्युमेंट्स, इनवॉइसेस या स्प्रेडशीट्स के डिजिटाइजेशन के लिए खासतौर पर यूज़फुल हैं जहां फ्री-फॉर्म टेक्स्ट और टैब्युलर डेटा दोनों मौजूद होते हैं।

लेआउट डिटेक्शन


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

एडवांस्ड फीचर्स

PaddleOCR कॉम्प्लेक्स वर्कफ्लो को सपोर्ट करता है:

कस्टम ट्रेनिंग: अपने डेटा पर मॉडल्स को फाइन-ट्यून करें:
मॉडल ट्रेनिंग
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
मल्टीलिंगुअल मिक्सिंग: मिक्स्ड-लैंग्वेज डॉक्युमेंट्स को प्रोसेस करें:
मल्टीलिंगुअल OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF सपोर्ट: डायरेक्ट PDF टेक्स्ट एक्सट्रैक्शन:
PDF प्रोसेसिंग
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

निष्कर्ष

PaddleOCR प्रोडक्शन-रेडी OCR प्रदान करता है जिसमें बेजोड़ मल्टीलिंगुअल सपोर्ट और स्केलेबिलिटी है। आदर्श है:

डॉक्युमेंट डिजिटाइजेशन: स्कैन्ड PDFs, इनवॉइसेस, रिसीट्स
मल्टीलिंगुअल एप्लिकेशन्स: पासपोर्ट रिकग्निशन, मल्टीलिंगुअल बुक्स
एज डिप्लॉयमेंट: ऑन-डिवाइस OCR वाले मोबाइल ऐप्स

PaddlePaddle के डीप लर्निंग इकोसिस्टम द्वारा सपोर्टेड, PaddleOCR OCR एक्यूरेसी और एफिशिएंसी में बेंचमार्क्स सेट करना जारी रखता है