दस्तावेज़ पार्सर पायथन के लिए APIs

दस्तावेज़ों को पार्स करने के लिए ओपन सोर्स पायथन APIs

विभिन्न दस्तावेज़ प्रारूपों - PDF, DOC/DOCX, XLS/XLSX और HTML आदि से पाठ, चित्र और अन्य जानकारी को पार्स करने और निकालने के लिए अनुकूलित ओपन-सोर्स पायथन लाइब्रेरीज़ की खोज करें।

पायथन के लिए दस्तावेज़ पार्सर API शामिल करें

docTR डीप लर्निंग का उपयोग कर टेक्स्ट डिटेक्शन और पहचान के लिए ओपन सोर्स पायथन API।

EasyOCR 80+ भाषाओं के साथ उद्योग-तैयार OCR और सटीक टेक्स्ट निष्कर्षण के लिए प्रशिक्षित मॉडल

PaddleOCR 100+ भाषाओं को सपोर्ट करने वाला रोबस्ट OCR टूलकिट जिसमें प्री-ट्रेंड मॉडल शामिल हैं

pdfminer.six पीडीएफ दस्तावेजों से स्वरूपण जानकारी के साथ पाठ को पार्स करने, पढ़ने और निकालने के लिए पायथन लाइब्रेरी।

PyMuPDF पीडीएफ दस्तावेजों से पाठ, चित्र और तालिकाओं आदि को पढ़ने, पार्स करने और निकालने के लिए पायथन में पीडीएफ पार्सर लाइब्रेरी।

pypdf पीडीएफ पढ़ने और पीडीएफ दस्तावेजों से पाठ, चित्र और अनुलग्नक निकालने के लिए पायथन पीडीएफ पार्सर लाइब्रेरी।

PyTesseract Tesseract OCR का उपयोग करके छवियों से पाठ निकालने के लिए एक ओपन-सोर्स पायथन API।

spaCy 20+ भाषाओं के लिए पूर्व-प्रशिक्षित मॉडल के साथ तेज़ और कुशल NLP लाइब्रेरी

Keras-OCR Keras और TensorFlow का उपयोग कर ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) के लिए हल्का पायथन API।

trOCR बहुभाषी और हस्तलिखित पाठ पहचान के लिए ट्रांसफॉर्मर-आधारित OCR मॉडल