पायथन में डीप लर्निंग-आधारित OCR समाधान
छवियों से सटीक टेक्स्ट निष्कर्षण और पहचान के लिए docTR का उपयोग करें।
पायथन के लिए docTR API क्या है?
docTR (डॉक्यूमेंट टेक्स्ट रिकग्निशन) पायथन में एक ओपन-सोर्स, डीप लर्निंग-आधारित ऑप्टिकल करैक्टर रिकग्निशन (OCR) लाइब्रेरी है। यह स्कैन किए गए दस्तावेज़ों, छवियों और PDFs के लिए अत्याधुनिक टेक्स्ट डिटेक्शन और पहचान प्रदान करता है। आधुनिक डीप लर्निंग आर्किटेक्चर का उपयोग करके, docTR दस्तावेज़ संरचना को संरक्षित करते हुए टेक्स्ट निकालने में उच्च सटीकता और दक्षता सुनिश्चित करता है।
docTR का उपयोग दस्तावेज़ डिजिटलीकरण, स्वचालित डेटा निष्कर्षण और AI-आधारित टेक्स्ट पहचान एप्लिकेशन्स में व्यापक रूप से किया जाता है। यह कई भाषाओं, हस्तलिखित टेक्स्ट पहचान और बेहतर प्रदर्शन के लिए GPU एक्सेलेरेशन को सपोर्ट करता है।
docTR API की प्रमुख विशेषताएं
- उन्नत डीप लर्निंग OCR: सटीक टेक्स्ट डिटेक्शन और पहचान के लिए न्यूरल नेटवर्क्स का उपयोग करता है।
- मल्टी-फॉर्मेट सपोर्ट: छवियों, PDFs और स्कैन किए गए दस्तावेज़ों के साथ सहजता से काम करता है।
- हस्तलिखित टेक्स्ट पहचान: उल्लेखनीय सटीकता के साथ हाथ से लिखे टेक्स्ट को पहचानता और निकालता है।
- बहुभाषी पहचान: विभिन्न भाषाओं और लिपियों को सपोर्ट करता है।
- गति के लिए अनुकूलित: GPU एक्सेलेरेशन के साथ कुशल टेक्स्ट निष्कर्षण।
- दस्तावेज़ लेआउट संरक्षित करता है: टेक्स्ट पहचान के दौरान संरचना बनाए रखता है।
- स्केलेबल और ओपन सोर्स: निरंतर सुधार के लिए निःशुल्क उपयोग और सक्रिय रूप से बनाए रखा गया।
docTR API के साथ शुरुआत करें
docTR इंस्टॉल करने के लिए निम्न pip कमांड का उपयोग करें:
docTR इंस्टॉल करें
pip install python-doctr
यदि आप तेज़ प्रोसेसिंग के लिए GPU एक्सेलेरेशन सक्षम करना चाहते हैं, तो अतिरिक्त डिपेंडेंसीज़ इंस्टॉल करें:
GPU डिपेंडेंसीज़ इंस्टॉल करें
pip install tensorflow-gpu torch torchvision
docTR API का उपयोग कर टेक्स्ट निष्कर्षण के कोड उदाहरण
नीचे docTR का उपयोग कर छवियों और दस्तावेज़ों से टेक्स्ट निकालने के कुछ उदाहरण दिए गए हैं।
उदाहरण 1: छवि से टेक्स्ट निकालना
यह उदाहरण दर्शाता है कि कैसे एक छवि लोड करें, docTR के साथ OCR लागू करें और टेक्स्ट निकालें। निकाला गया टेक्स्ट छवि के भीतर अपनी स्थिति शामिल करता है, जो इसे संरचित दस्तावेज़ प्रोसेसिंग के लिए उपयोगी बनाता है।
छवि से टेक्स्ट निकालें
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
उदाहरण 2: मल्टी-पेज PDF दस्तावेज़ प्रोसेस करना
यदि आपको कई पृष्ठों वाले PDF फ़ाइल से टेक्स्ट निकालने की आवश्यकता है, तो docTR प्रक्रिया को सरल बनाता है। नीचे दिया गया उदाहरण दर्शाता है कि कैसे प्रत्येक पृष्ठ से टेक्स्ट को कुशलता से निकाला जाए।
PDF से टेक्स्ट निकालें
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
उदाहरण 3: हस्तलिखित टेक्स्ट पहचानना
docTR हस्तलिखित टेक्स्ट को भी पहचान सकता है, जो इसे हाथ से लिखे नोट्स, फॉर्म्स या ऐतिहासिक दस्तावेज़ों के डिजिटलीकरण के लिए आदर्श बनाता है। यह उदाहरण एक सिंथेटिक हस्तलिखित दस्तावेज़ से टेक्स्ट निकालने को दर्शाता है।
हस्तलिखित टेक्स्ट निकालें
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
निष्कर्ष
docTR API एक शक्तिशाली डीप लर्निंग-आधारित OCR समाधान है जो छवियों, PDFs और हस्तलिखित दस्तावेज़ों से टेक्स्ट निष्कर्षण को सरल बनाता है। यह दस्तावेज़ संरचना को संरक्षित करते हुए उच्च सटीकता सुनिश्चित करता है, जो इसे AI-संचालित दस्तावेज़ प्रोसेसिंग, ऑटोमेशन और डेटा निष्कर्षण के लिए एक मूल्यवान उपकरण बनाता है।
चाहे आप दस्तावेज़ डिजिटलीकरण, स्वचालित डेटा एंट्री या AI-आधारित टेक्स्ट पहचान पर काम कर रहे हों, docTR आपकी आवश्यकताओं के अनुरूप एक लचीला और कुशल समाधान प्रदान करता है।