ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

पीडीएफ दस्तावेजों से पाठ, चित्र, तालिकाओं और अन्य सामग्री को पार्स करने, पढ़ने और निकालने के लिए इस मुफ्त और खुले स्रोत पायथन लाइब्रेरी को आज़माएं।

PyMuPDF क्या है?

PyMuPDF, जिसे Fitz के नाम से भी जाना जाता है, एक ओपन-सोर्स पायथन लाइब्रेरी है जो PDF फ़ाइलों के साथ काम करने के लिए उपकरणों का एक व्यापक सेट प्रदान करती है। PyMuPDF के साथ, उपयोगकर्ता PDF खोलने, टेक्स्ट, इमेज और टेबल निकालने, रोटेशन और क्रॉपिंग जैसे पेज गुणों में हेरफेर करने, नए PDF दस्तावेज़ बनाने और PDF पृष्ठों को इमेज में बदलने जैसे कार्य कुशलतापूर्वक कर सकते हैं।

PyMuPDF कई सुविधाओं का समर्थन करता है जो नीचे सूचीबद्ध हैं:

पीडीएफ दस्तावेज़ पढ़ना: PyMuPDF पीडीएफ दस्तावेज़ों को खोल और पढ़ सकता है, जिससे आप उनमें मौजूद पाठ, छवियों और अन्य सामग्री तक पहुंच सकते हैं।
पाठ निष्कर्षण: आप पीडीएफ दस्तावेज़ों से पाठ निकाल सकते हैं, जिसमें पाठ सामग्री, फ़ॉन्ट और लेआउट जानकारी शामिल है।
छवि निष्कर्षण: आप PDF दस्तावेज़ों से विभिन्न स्वरूपों, जैसे JPEG या PNG, में छवियां निकाल सकते हैं।
तालिका निष्कर्षण: आप पीडीएफ दस्तावेज़ों से तालिकाएँ भी निकाल सकते हैं।

इस समीक्षा में, हमारा प्राथमिक ध्यान लाइब्रेरी की निष्कर्षण और पार्सिंग सुविधाओं पर होगा। विभाजन, विलय और पृष्ठ प्रबंधन सुविधाओं के गहन मूल्यांकन के लिए, कृपया यहाँ क्लिक करें।

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

PyMuPDF के साथ आरंभ करना

PyMuPDF को इंस्टॉल और उपयोग करने के लिए आपको Python संस्करण 3.8.0 या उच्चतर की आवश्यकता है। इसलिए, पहले Python इंस्टॉल करें और फिर pip और वर्चुअल एनवायरनमेंट का उपयोग करके अपनी मशीन पर PyMuPDF इंस्टॉल करने के लिए नीचे दिए गए कमांड का उपयोग करें।

लिनक्स


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

मैक ओएस


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

विंडोज़


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

पीडीएफ से पाठ निकालें

आप पाइथन में PyMuPDF लाइब्रेरी का उपयोग करके PDF दस्तावेज़ से पाठ निकाल सकते हैं और पाठ विश्लेषण कर सकते हैं, जैसे शब्दों की गिनती, बस लाइब्रेरी में दिए गए फ़ंक्शन का उपयोग करके, जैसा कि नीचे दिए गए कोड में दिखाया गया है:

उत्पादन

नीचे दी गई छवि पीडीएफ फाइल में निकाले गए पाठ और शब्दों की संख्या दर्शाती है:

पीडीएफ से छवियाँ निकालें

हम पायथन में पीडीएफ दस्तावेज़ से छवियों को निकालने के लिए PyMuPDF लाइब्रेरी का उपयोग कर सकते हैं। नीचे दिया गया कोड स्निपेट निर्दिष्ट पीडीएफ फ़ाइल को खोलता है, पीडीएफ से छवियों को निकालता है और उन्हें वर्तमान कार्यशील निर्देशिका में सहेजता है:

उत्पादन

निम्नलिखित पीडीएफ दस्तावेज़ से निकाली गई पीएनजी छवि है

पीडीएफ से तालिकाएँ निकालें

हम PDF दस्तावेज़ को प्रोसेस करने और उससे तालिकाएँ निकालने के लिए PyMuPDF लाइब्रेरी का भी उपयोग कर सकते हैं। नीचे दिए गए कोड स्निपेट को देखें जो निर्दिष्ट PDF फ़ाइल को खोलता है और PDF दस्तावेज़ से तालिकाएँ निकालता है:

उत्पादन

नीचे दिया गया स्क्रीनशॉट पीडीएफ दस्तावेज़ से निकाली गई तालिका दिखाता है:

पीडीएफ में टेक्स्ट डालें

नीचे दिया गया पायथन कोड स्निपेट एक PDF फ़ाइल में पाठ डालने और संशोधित PDF को text.pdf के रूप में सहेजने के लिए PyMuPDF लाइब्रेरी के उपयोग को प्रदर्शित करता है:

उत्पादन

उपरोक्त कोड का उपयोग करके डाला गया पाठ नीचे दिए गए लाल बॉक्स में हाइलाइट किया गया है:

PyMuPDF के साथ OCR का उपयोग करके PDF पाठ पहचान

We will perform OCR on the PDF file containing the following image:

उत्पादन

नीचे दी गई छवि प्रदान की गई पीडीएफ फाइल में मौजूद छवि से निकाले गए पाठ को दर्शाती है:

निष्कर्ष

संक्षेप में, PyMuPDF एक पेशेवर उपकरण है जिसमें कुछ स्पष्ट ताकत और कमजोरियाँ हैं। यह OCR और टेक्स्ट निष्कर्षण जैसे कार्यों के लिए बहुत बढ़िया है जो इसे PDF में टेक्स्ट को संभालने के लिए मूल्यवान बनाता है।

हालाँकि, यह PDF से तालिकाएँ निकालने में उतना अच्छा नहीं है, खासकर जब PDF में जटिल संरचना या अधिक संख्या में पृष्ठ हों, जो कुछ उपयोगकर्ताओं के लिए एक कमी हो सकती है। साथ ही, कुछ स्थितियों में इसे पांडा और टेसेरैक्ट OCR भाषा डेटा फ़ाइलों जैसी अतिरिक्त लाइब्रेरी की आवश्यकता हो सकती है, जो इसके उपयोग में जटिलता को बढ़ाती है। इन सीमाओं के बावजूद, PyMuPDF PDF में टेक्स्ट के साथ काम करने के लिए एक मजबूत विकल्प बना हुआ है।

ओपन सोर्स पायथन पीडीएफ पार्सर लाइब्रेरी

PyMuPDF क्या है?

गिटहब आँकड़े

PyMuPDF के साथ आरंभ करना

लिनक्स

मैक ओएस

विंडोज़

पीडीएफ से पाठ निकालें

उत्पादन

पीडीएफ से छवियाँ निकालें

उत्पादन

पीडीएफ से तालिकाएँ निकालें

उत्पादन

पीडीएफ में टेक्स्ट डालें

उत्पादन

PyMuPDF के साथ OCR का उपयोग करके PDF पाठ पहचान

उत्पादन

निष्कर्ष

इसी तरह के उत्पादों