पायथन में डीप लर्निंग-आधारित OCR समाधान

छवियों से सटीक टेक्स्ट निष्कर्षण और पहचान के लिए docTR का उपयोग करें।

पायथन के लिए docTR API क्या है?

docTR (डॉक्यूमेंट टेक्स्ट रिकग्निशन) पायथन में एक ओपन-सोर्स, डीप लर्निंग-आधारित ऑप्टिकल करैक्टर रिकग्निशन (OCR) लाइब्रेरी है। यह स्कैन किए गए दस्तावेज़ों, छवियों और PDFs के लिए अत्याधुनिक टेक्स्ट डिटेक्शन और पहचान प्रदान करता है। आधुनिक डीप लर्निंग आर्किटेक्चर का उपयोग करके, docTR दस्तावेज़ संरचना को संरक्षित करते हुए टेक्स्ट निकालने में उच्च सटीकता और दक्षता सुनिश्चित करता है।

docTR का उपयोग दस्तावेज़ डिजिटलीकरण, स्वचालित डेटा निष्कर्षण और AI-आधारित टेक्स्ट पहचान एप्लिकेशन्स में व्यापक रूप से किया जाता है। यह कई भाषाओं, हस्तलिखित टेक्स्ट पहचान और बेहतर प्रदर्शन के लिए GPU एक्सेलेरेशन को सपोर्ट करता है।

docTR API की प्रमुख विशेषताएं

उन्नत डीप लर्निंग OCR: सटीक टेक्स्ट डिटेक्शन और पहचान के लिए न्यूरल नेटवर्क्स का उपयोग करता है।
मल्टी-फॉर्मेट सपोर्ट: छवियों, PDFs और स्कैन किए गए दस्तावेज़ों के साथ सहजता से काम करता है।
हस्तलिखित टेक्स्ट पहचान: उल्लेखनीय सटीकता के साथ हाथ से लिखे टेक्स्ट को पहचानता और निकालता है।
बहुभाषी पहचान: विभिन्न भाषाओं और लिपियों को सपोर्ट करता है।
गति के लिए अनुकूलित: GPU एक्सेलेरेशन के साथ कुशल टेक्स्ट निष्कर्षण।
दस्तावेज़ लेआउट संरक्षित करता है: टेक्स्ट पहचान के दौरान संरचना बनाए रखता है।
स्केलेबल और ओपन सोर्स: निरंतर सुधार के लिए निःशुल्क उपयोग और सक्रिय रूप से बनाए रखा गया।

docTR API के साथ शुरुआत करें

docTR इंस्टॉल करने के लिए निम्न pip कमांड का उपयोग करें:

docTR इंस्टॉल करें


pip install python-doctr

यदि आप तेज़ प्रोसेसिंग के लिए GPU एक्सेलेरेशन सक्षम करना चाहते हैं, तो अतिरिक्त डिपेंडेंसीज़ इंस्टॉल करें:

GPU डिपेंडेंसीज़ इंस्टॉल करें


pip install tensorflow-gpu torch torchvision

docTR API का उपयोग कर टेक्स्ट निष्कर्षण के कोड उदाहरण

नीचे docTR का उपयोग कर छवियों और दस्तावेज़ों से टेक्स्ट निकालने के कुछ उदाहरण दिए गए हैं।

OCR के लिए docTR API

उदाहरण 1: छवि से टेक्स्ट निकालना

यह उदाहरण दर्शाता है कि कैसे एक छवि लोड करें, docTR के साथ OCR लागू करें और टेक्स्ट निकालें। निकाला गया टेक्स्ट छवि के भीतर अपनी स्थिति शामिल करता है, जो इसे संरचित दस्तावेज़ प्रोसेसिंग के लिए उपयोगी बनाता है।

छवि से टेक्स्ट निकालें


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

उदाहरण 2: मल्टी-पेज PDF दस्तावेज़ प्रोसेस करना

यदि आपको कई पृष्ठों वाले PDF फ़ाइल से टेक्स्ट निकालने की आवश्यकता है, तो docTR प्रक्रिया को सरल बनाता है। नीचे दिया गया उदाहरण दर्शाता है कि कैसे प्रत्येक पृष्ठ से टेक्स्ट को कुशलता से निकाला जाए।

PDF से टेक्स्ट निकालें


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

उदाहरण 3: हस्तलिखित टेक्स्ट पहचानना

docTR हस्तलिखित टेक्स्ट को भी पहचान सकता है, जो इसे हाथ से लिखे नोट्स, फॉर्म्स या ऐतिहासिक दस्तावेज़ों के डिजिटलीकरण के लिए आदर्श बनाता है। यह उदाहरण एक सिंथेटिक हस्तलिखित दस्तावेज़ से टेक्स्ट निकालने को दर्शाता है।

हस्तलिखित टेक्स्ट निकालें


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

निष्कर्ष

docTR API एक शक्तिशाली डीप लर्निंग-आधारित OCR समाधान है जो छवियों, PDFs और हस्तलिखित दस्तावेज़ों से टेक्स्ट निष्कर्षण को सरल बनाता है। यह दस्तावेज़ संरचना को संरक्षित करते हुए उच्च सटीकता सुनिश्चित करता है, जो इसे AI-संचालित दस्तावेज़ प्रोसेसिंग, ऑटोमेशन और डेटा निष्कर्षण के लिए एक मूल्यवान उपकरण बनाता है।

चाहे आप दस्तावेज़ डिजिटलीकरण, स्वचालित डेटा एंट्री या AI-आधारित टेक्स्ट पहचान पर काम कर रहे हों, docTR आपकी आवश्यकताओं के अनुरूप एक लचीला और कुशल समाधान प्रदान करता है।