ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी
पीडीएफ को पार्स करने और फ़ॉर्मेटिंग जानकारी के साथ टेक्स्ट निकालने के लिए मुफ़्त और ओपन-सोर्स पायथन लाइब्रेरी।
पीडीएफमिनर.सिक्स क्या है?
Pdfminer.six पीडीएफ दस्तावेज़ों से डेटा निकालने के लिए एक खुला स्रोत पायथन लाइब्रेरी और टूलसेट है। आप पीडीएफ दस्तावेजों को पार्स कर सकते हैं और डेटा विश्लेषण के लिए पीडीएफ से टेक्स्ट, सामग्री तालिका और टैग की गई सामग्री आदि निकाल सकते हैं।
यहां इसकी पार्सिंग सुविधाओं की एक संक्षिप्त सूची दी गई है:
- पाठ निकालना: पीडीएफ दस्तावेज़ों से पाठ्य सामग्री निकालें जिसमें लेआउट और फ़ॉर्मेटिंग जानकारी जैसे पाठ का रंग, फ़ॉन्ट और स्थान आदि शामिल हैं।
- फ़ॉन्ट जानकारी निकालना: पीडीएफ दस्तावेज़ों में उपयोग किए गए फ़ॉन्ट के बारे में जानकारी निकालें।
पीडीएफमिनर.सिक्स के साथ शुरुआत करना
pypdf को स्थापित करने और उपयोग करने के लिए आपको Python संस्करण 3.6.0 या उच्चतर की आवश्यकता है। तो, पहले Python इंस्टॉल करें और फिर