ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

निःशुल्क पायथन लाइब्रेरी का उपयोग करके पीडीएफ पार्स करें और पीडीएफ दस्तावेजों से पाठ, चित्र और अनुलग्नक निकालें।

पीवाईपीडीएफ क्या है?

Pypdf एक मूल्यवान ओपन सोर्स पायथन लाइब्रेरी है जो विभिन्न PDF संचालन में अपनी दक्षता के लिए जानी जाती है। यह लाइब्रेरी PDF फ़ाइलों से संबंधित कई कार्यों और संचालनों को संभाल सकती है, हालाँकि, हम इस पृष्ठ पर केवल इसकी PDF पार्सिंग सुविधाओं पर ध्यान केंद्रित करेंगे।

pypdf की उल्लेखनीय पार्सिंग विशेषताओं में शामिल हैं:

पीडीएफ फाइलें पढ़ना: Pypdf आपको पीडीएफ फाइलों को खोलने और पढ़ने/पार्स करने की अनुमति देता है, जिससे मौजूदा पीडीएफ दस्तावेजों से पाठ और अन्य डेटा निकालना आसान हो जाता है।
सामग्री निष्कर्षण: आप अपनी आवश्यकता के अनुसार पीडीएफ दस्तावेजों से पाठ, चित्र और अनुलग्नकों को पार्स और निकाल सकते हैं।

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

pypdf के साथ आरंभ करना

Pypdf को इंस्टॉल और उपयोग करने के लिए आपको Python संस्करण 3.6.0 या उससे उच्चतर की आवश्यकता है। इसलिए, पहले Python इंस्टॉल करें और फिर pip और वर्चुअल एनवायरनमेंट का उपयोग करके अपनी मशीन पर pypdf इंस्टॉल करने के लिए नीचे दिए गए कमांड का उपयोग करें।

लिनक्स


python3 -m venv venv
source venv/bin/activate
pip install pypdf

मैक ओएस


python -m venv venv
source venv/bin/activate
pip install pypdf

विंडोज़


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

पीडीएफ से पाठ निकालें

Please check below code snippet for example:

उत्पादन

नीचे दी गई छवि पीडीएफ फ़ाइल से निकाले गए पाठ को दिखाती है

पीडीएफ से छवियाँ निकालें

हम PDF दस्तावेज़ से छवियाँ निकालने के लिए pypdf लाइब्रेरी का उपयोग कर सकते हैं। छवियों को निकालने के लिए pillow नामक एक अतिरिक्त लाइब्रेरी की आवश्यकता होती है। यह प्रत्येक पृष्ठ पर पुनरावृत्ति करता है, छवियों की पहचान करता है, और उन्हें अलग-अलग छवि फ़ाइलों के रूप में सहेजता है, उनके मूल नामों को संरक्षित करता है। उदाहरण के लिए कृपया नीचे दिए गए कोड स्निपेट को देखें:

उत्पादन

उपरोक्त कोड का उपयोग करके डाला गया पाठ नीचे दिए गए लाल बॉक्स में हाइलाइट किया गया है

पीडीएफ से अनुलग्नक निकालें

pypdf लाइब्रेरी PDF दस्तावेज़ से अनुलग्नकों को निकालने और सहेजने की अनुमति देती है। यह अनुलग्नकों और उनकी सामग्री के माध्यम से पुनरावृत्त करता है और उन्हें अलग-अलग फ़ाइलों में सहेजता है। उदाहरण के लिए कृपया नीचे दिए गए कोड स्निपेट की जाँच करें:

निष्कर्ष

निष्कर्ष में, pypdf PDF दस्तावेज़ों से सुविधाएँ निकालने के लिए एक बहुमुखी पायथन लाइब्रेरी के रूप में सामने आता है। यह टेक्स्ट, इमेज और अटैचमेंट को पार्स करने के लिए मज़बूत क्षमताएँ प्रदान करता है, जिससे यह डेटा निष्कर्षण, विश्लेषण और दस्तावेज़ प्रबंधन के लिए एक मूल्यवान उपकरण बन जाता है।

हालांकि, यह ध्यान रखना महत्वपूर्ण है कि pypdf टेक्स्ट निकालते समय कभी-कभी समस्याएँ पेश कर सकता है, जैसे कि शब्दों और वर्णों के बीच अतिरिक्त रिक्त स्थान, जो निकाले गए कंटेंट की सटीकता को प्रभावित कर सकते हैं। इस सीमा के बावजूद, pypdf PDF फ़ाइलों को पार्स करने के लिए एक मूल्यवान संपत्ति बनी हुई है, खासकर उन परिदृश्यों में जहाँ टेक्स्ट का सटीक स्वरूपण प्राथमिक चिंता का विषय नहीं है।

ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

पीवाईपीडीएफ क्या है?

गिटहब आँकड़े

pypdf के साथ आरंभ करना

लिनक्स

मैक ओएस

विंडोज़

पीडीएफ से पाठ निकालें

उत्पादन

पीडीएफ से छवियाँ निकालें

उत्पादन

पीडीएफ से अनुलग्नक निकालें

निष्कर्ष

इसी तरह के उत्पादों