ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

पीडीएफ को पार्स करने और फ़ॉर्मेटिंग जानकारी के साथ टेक्स्ट निकालने के लिए मुफ़्त और ओपन-सोर्स पायथन लाइब्रेरी।

पीडीएफमिनर.सिक्स क्या है?

Pdfminer.six पीडीएफ दस्तावेज़ों से डेटा निकालने के लिए एक खुला स्रोत पायथन लाइब्रेरी और टूलसेट है। आप पीडीएफ दस्तावेजों को पार्स कर सकते हैं और डेटा विश्लेषण के लिए पीडीएफ से टेक्स्ट, सामग्री तालिका और टैग की गई सामग्री आदि निकाल सकते हैं।

यहां इसकी पार्सिंग सुविधाओं की एक संक्षिप्त सूची दी गई है:

  • पाठ निकालना: पीडीएफ दस्तावेज़ों से पाठ्य सामग्री निकालें जिसमें लेआउट और फ़ॉर्मेटिंग जानकारी जैसे पाठ का रंग, फ़ॉन्ट और स्थान आदि शामिल हैं।
  • फ़ॉन्ट जानकारी निकालना: पीडीएफ दस्तावेज़ों में उपयोग किए गए फ़ॉन्ट के बारे में जानकारी निकालें।
GitHub

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

पीडीएफमिनर.सिक्स के साथ शुरुआत करना

pypdf को स्थापित करने और उपयोग करने के लिए आपको Python संस्करण 3.6.0 या उच्चतर की आवश्यकता है। तो, पहले Python इंस्टॉल करें और फिर