PyMuPDF

 
 

पीडीएफ मेटाडेटा को प्रबंधित करने के लिए ओपन सोर्स पायथन लाइब्रेरी

पीडीएफ दस्तावेजों के मेटाडेटा तक पहुंचने और उसे संशोधित करने के लिए PyMuPDF, निःशुल्क और मुक्त स्रोत पायथन लाइब्रेरी का प्रयास करें।

PyMuPDF क्या है?

PyMuPDF, जिसे फिट्ज़ के नाम से भी जाना जाता है, एक ओपन सोर्स पायथन लाइब्रेरी है जो कई सुविधाएँ प्रदान करती है जैसे पीडीएफ को पार्स करना, पीडीएफ को विभाजित करना और विलय करना आदि। लेकिन इस पृष्ठ पर हम केवल इस बात पर चर्चा करेंगे कि पायथन डेवलपर्स पीडीएफ मेटाडेटा से संबंधित कार्यों को संभालने के लिए PyMuPDF लाइब्रेरी का उपयोग कैसे कर सकते हैं जैसे:

  • पीडीएफ मेटाडेटा पढ़ें: PyMuPDF पीडीएफ दस्तावेजों के मेटाडेटा तक पहुंचने का समर्थन करता है जिसमें लेखक, शीर्षक, विषय और निर्माण तिथि आदि जैसी जानकारी शामिल है।
  • पीडीएफ मेटाडेटा संशोधित करें: लाइब्रेरी पीडीएफ दस्तावेजों के मेटाडेटा को संशोधित करने की भी अनुमति देती है।
  • XML मेटाडेटा पढ़ें: PDF दस्तावेज़ों में XML मेटाडेटा भी होता है जो लेखक, शीर्षक आदि जैसे मानक दस्तावेज़ गुणों तक सीमित नहीं होता है और इसमें अतिरिक्त मेटाडेटा भी हो सकता है। PyMuPDF के साथ, डेवलपर्स इसे पढ़ भी सकते हैं।
  • XML मेटाडेटा बदलें: डेवलपर्स PyMuPDF लाइब्रेरी का उपयोग करके PDF के XML मेटाडेटा को भी बदल सकते हैं।
GitHub

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

PyMuPDF के साथ आरंभ करना

PyMuPDF को इंस्टॉल और उपयोग करने के लिए आपको Python संस्करण 3.8.0 या उच्चतर की आवश्यकता है। इसलिए, पहले Python इंस्टॉल करें और फिर pip और वर्चुअल एनवायरनमेंट का उपयोग करके अपनी मशीन पर PyMuPDF इंस्टॉल करने के लिए नीचे दिए गए कमांड का उपयोग करें।

लिनक्स


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

मैक ओएस


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

विंडोज़


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

पीडीएफ मेटाडेटा पढ़ें

हम PyMuPDF लाइब्रेरी के मेटाडेटा सदस्य का उपयोग करके PDF का मेटाडेटा पढ़ सकते हैं जिसमें दस्तावेज़ की संपूर्ण मेटाडेटा सामग्री शामिल है। नीचे दिया गया कोड स्निपेट दिखाता है कि मेटाडेटा सदस्य से PDF का मेटाडेटा कैसे प्राप्त किया जाए:

उत्पादन

नीचे दिया गया स्क्रीनशॉट PyMuPDF का उपयोग करके PDF से प्राप्त मेटाडेटा दिखाता है:

पीडीएफ मेटाडेटा संपादित करें

हम PyMuPDF लाइब्रेरी का उपयोग करके PDF के मेटाडेटा को संपादित कर सकते हैं, इसके लिए हमें उन फ़ील्ड्स की डिक्शनरी को उनके नए मानों के साथ set_metadata विधि में भेजना होगा, जैसा कि नीचे दिए गए कोड स्निपेट में दिखाया गया है:

पीडीएफ का XML मेटाडेटा पढ़ें

हम PyMuPDF लाइब्रेरी का उपयोग करके PDF का XML मेटाडेटा प्राप्त कर सकते हैं। हम get_xml_metadata विधि का उपयोग करते हैं जो नीचे दिए गए कोड स्निपेट में दिखाए अनुसार संपूर्ण XML मेटाडेटा लौटाता है:

उत्पादन

नीचे दिया गया स्क्रीनशॉट PyMuPDF का उपयोग करके PDF से प्राप्त XML मेटाडेटा दिखाता है:

PDF का XML मेटाडेटा बदलें

हम PyMuPDF लाइब्रेरी की set_xml_metadata विधि का उपयोग करके PDF के XML मेटाडेटा को सेट या बदल सकते हैं। यह दस्तावेज़-स्तरीय मेटाडेटा को बदलने जितना सीधा नहीं है क्योंकि set_xml_metadata किसी भी स्ट्रिंग को स्वीकार करेगा और पूरे XML मेटाडेटा को उसमें पास की गई स्ट्रिंग से बदल देगा।

किसी भी मेटाडेटा जानकारी को अनजाने में हटाने से बचने के लिए, हम सबसे पहले get_xml_metadata का उपयोग करके स्ट्रिंग के रूप में पूरा XML मेटाडेटा प्राप्त करते हैं और फिर वांछित जानकारी को बदलने के लिए स्ट्रिंग की replace विधि का उपयोग करते हैं, अंत में, हम परिवर्तित फ़ील्ड के साथ पूरा XML set_xml_metadata विधि में पास करते हैं जो PDF के संपूर्ण XML मेटाडेटा को बदल देता है। विवरण के लिए नीचे दिए गए कोड स्निपेट को देखें:

निष्कर्ष

संक्षेप में, मेटाडेटा हेरफेर से संबंधित कार्यों के लिए PyMuPDF एक बेहतरीन उपकरण है। हम PDF की मेटाडेटा जानकारी को आसानी से प्राप्त और बदल सकते हैं। हालाँकि, set_xml_metadata विधि में एक उल्लेखनीय कमजोरी है। यह विधि इसे पास की गई किसी भी स्ट्रिंग को स्वीकार करती है और इसके साथ पिछले XML को अधिलेखित कर देती है जिससे जानकारी का अनजाने में नुकसान हो सकता है। इस समस्या से बचने के लिए डेवलपर्स को XML मेटाडेटा में सही संशोधन सुनिश्चित करने के लिए अपने तर्क को लागू करने की आवश्यकता होती है।

इसी तरह के उत्पादों

 Hindi