ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

पीडीएफ को पार्स करने और स्वरूपण जानकारी के साथ पाठ निकालने के लिए निःशुल्क और ओपन-सोर्स पायथन लाइब्रेरी।

pdfminer.six क्या है?

Pdfminer.six एक ओपन सोर्स पायथन लाइब्रेरी और टूलसेट है जो PDF दस्तावेज़ों से डेटा निकालने के लिए है। आप PDF दस्तावेज़ों को पार्स कर सकते हैं और डेटा विश्लेषण के लिए PDF से टेक्स्ट, सामग्री की तालिका और टैग की गई सामग्री आदि निकाल सकते हैं।

इसकी पार्सिंग सुविधाओं की संक्षिप्त सूची इस प्रकार है:

  • पाठ निष्कर्षण: पीडीएफ दस्तावेजों से पाठ सामग्री निकालें, जिसमें लेआउट और स्वरूपण जानकारी जैसे पाठ का रंग, फ़ॉन्ट और स्थान आदि शामिल हैं।
  • फ़ॉन्ट जानकारी निष्कर्षण: PDF दस्तावेज़ों में प्रयुक्त फ़ॉन्ट के बारे में जानकारी निकालें।
GitHub

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

pdfminer.six के साथ आरंभ करना

Pypdf को इंस्टॉल और उपयोग करने के लिए आपको Python संस्करण 3.6.0 या उससे उच्चतर की आवश्यकता है। इसलिए, पहले Python इंस्टॉल करें और फिर pip और वर्चुअल एनवायरनमेंट का उपयोग करके अपनी मशीन पर pypdf इंस्टॉल करने के लिए नीचे दिए गए कमांड का उपयोग करें।

लिनक्स


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

मैक ओएस


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

विंडोज़


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

पीडीएफ दस्तावेज़ से पाठ निकालें

आप extract_text फ़ंक्शन का उपयोग करके PDF दस्तावेज़ से पाठ निकालने के लिए पायथन में pdfminer.six लाइब्रेरी का उपयोग कर सकते हैं, जैसा कि नीचे दिए गए कोड स्निपेट में दिखाया गया है:

उत्पादन

निम्न स्क्रीनशॉट पीडीएफ दस्तावेज़ से निकाला गया पाठ दिखाता है:

पीडीएफ दस्तावेज़ से फ़ॉन्ट जानकारी निकालें

हम पीडीएफ दस्तावेज़ में इस्तेमाल किए गए फ़ॉन्ट के बारे में जानकारी भी निकाल सकते हैं, जैसे कि फ़ॉन्ट का नाम और फ़ॉन्ट का आकार, पीडीएफ में प्रत्येक पृष्ठ के लेआउट तत्वों के माध्यम से पुनरावृत्ति करके। उदाहरण के लिए, नीचे दिए गए कोड स्निपेट को देखें:

उत्पादन

निम्न स्क्रीनशॉट पीडीएफ दस्तावेज़ से निकाली गई फ़ॉन्ट जानकारी दिखाता है:

निष्कर्ष

निष्कर्ष रूप में, pdfminer.six में पीडीएफ दस्तावेजों से पाठ और अन्य जानकारी निकालने की क्षमता है, लेकिन इसमें पीडीएफ से चित्र और तालिकाओं को निकालने जैसी कार्यक्षमताओं का अभाव है।

यह ध्यान रखना महत्वपूर्ण है कि pdfminer.six लाइब्रेरी पीडीएफ पृष्ठों को छवियों के रूप में निकालने का समर्थन करती है, लेकिन यह पीडीएफ दस्तावेजों में एम्बेडेड छवियों को निकालने से अलग है जो pdfminer.six द्वारा समर्थित नहीं है। हालाँकि, डेवलपर्स अभी भी अपने डेटा विश्लेषण की ज़रूरतों के लिए टेक्स्ट निकालने के लिए पायथन में पीडीएफ को पार्स करने के लिए इस पर भरोसा कर सकते हैं।

इसी तरह के उत्पादों

 Hindi