PyMuPDF

 
 

पीडीएफ मेटाडेटा को प्रबंधित करने के लिए ओपन सोर्स पायथन लाइब्रेरी

पीडीएफ दस्तावेजों के मेटाडेटा तक पहुंचने और संशोधित करने के लिए PyMuPDF, फ्री और ओपन सोर्स पायथन लाइब्रेरी आज़माएं।

PyMuPDF क्या है?

PyMuPDF, जिसे फिट्ज़ के नाम से भी जाना जाता है, एक खुला स्रोत पायथन लाइब्रेरी है जो पार्सिंग पीडीएफ, पीडीएफ को विभाजित करना और मर्ज करनाआदि, लेकिन इस पेज में हम केवल इस बात पर चर्चा करेंगे कि कैसे पायथन डेवलपर्स पीडीएफ मेटाडेटा से संबंधित कार्यों को संभालने के लिए PyMuPDF लाइब्रेरी का उपयोग कर सकते हैं:

  • पीडीएफ मेटाडेटा पढ़ें: PyMuPDF लेखक, शीर्षक, विषय और निर्माण तिथि आदि जैसी जानकारी वाले पीडीएफ दस्तावेजों के मेटाडेटा तक पहुंचने का समर्थन करता है।
  • पीडीएफ मेटाडेटा को संशोधित करें: लाइब्रेरी पीडीएफ दस्तावेजों के मेटाडेटा को संशोधित करने की भी अनुमति देती है।
  • XML मेटाडेटा पढ़ें: पीडीएफ दस्तावेज़ों में XML मेटाडेटा भी होता है जो लेखक, शीर्षक आदि जैसे मानक दस्तावेज़ गुणों तक सीमित नहीं है और इसमें अतिरिक्त मेटाडेटा हो सकता है। PyMuPDF के साथ, डेवलपर्स इसे पढ़ भी सकते हैं।
  • XML मेटाडेटा बदलें: डेवलपर्स PyMuPDF लाइब्रेरी का उपयोग करके PDF के XML मेटाडेटा को भी बदल सकते हैं।
GitHub

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

PyMuPDF के साथ शुरुआत करना

PyMuPDF को स्थापित और उपयोग करने के लिए आपको Python संस्करण 3.8.0 या उच्चतर की आवश्यकता है। तो, पहले Python इंस्टॉल करें और फिर पिप और आभासी वातावरण.

पीडीएफ मेटाडेटा पढ़ें

हम PyMuPDF लाइब्रेरी के मेटाडेटा सदस्य का उपयोग करके पीडीएफ के मेटाडेटा को पढ़ सकते हैं जिसमें दस्तावेज़ की संपूर्ण मेटाडेटा सामग्री शामिल है। नीचे दिया गया कोड स्निपेट दिखाता है कि मेटाडेटा सदस्य से पीडीएफ का मेटाडेटा कैसे प्राप्त किया जाए:

नीचे दिया गया स्क्रीनशॉट PyMuPDF का उपयोग करके पीडीएफ से पुनर्प्राप्त मेटाडेटा दिखाता है:

पीडीएफ मेटाडेटा संपादित करें

हम PyMuPDF लाइब्रेरी का उपयोग करके पीडीएफ के मेटाडेटा को set_metadata विधि में उन फ़ील्ड्स वाले शब्दकोश को पास करके संपादित कर सकते हैं, जिन्हें हम उनके नए मानों के साथ बदलना चाहते हैं, जैसा कि नीचे दिए गए कोड स्निपेट में दिखाया गया है:

पीडीएफ का एक्सएमएल मेटाडेटा पढ़ें

हम PyMuPDF लाइब्रेरी का उपयोग करके PDF का XML मेटाडेटा पुनर्प्राप्त कर सकते हैं। हम get_xml_metadata विधि का उपयोग करते हैं जो संपूर्ण XML मेटाडेटा लौटाता है जैसा कि नीचे दिए गए कोड स्निपेट में दिखाया गया है:

नीचे दिया गया स्क्रीनशॉट PyMuPDF का उपयोग करके पीडीएफ से प्राप्त XML मेटाडेटा दिखाता है:

पीडीएफ का एक्सएमएल मेटाडेटा बदलें

हम PyMuPDF लाइब्रेरी की set_xml_metadata विधि का उपयोग करके पीडीएफ के XML मेटाडेटा को सेट या बदल सकते हैं। यह दस्तावेज़-स्तरीय मेटाडेटा को बदलने जितना सीधा नहीं है क्योंकि set_xml_metadata किसी भी स्ट्रिंग को स्वीकार करेगा और संपूर्ण XML मेटाडेटा को पास की गई स्ट्रिंग से बदल देगा।

किसी भी मेटाडेटा जानकारी को अनजाने में हटाने से बचने के लिए, हम पहले get_xml_metadata का उपयोग करके संपूर्ण XML मेटाडेटा को एक स्ट्रिंग के रूप में लाते हैं और फिर वांछित को प्रतिस्थापित करने के लिए स्ट्रिंग की रिप्लेस विधि का उपयोग करते हैं। जानकारी के बाद, हम बदले हुए फ़ील्ड के साथ संपूर्ण XML को set_xml_metadata विधि में पास करते हैं जो पीडीएफ के संपूर्ण XML मेटाडेटा को बदल देता है। विवरण के लिए नीचे दिए गए कोड स्निपेट की जाँच करें:

निष्कर्ष

संक्षेप में, मेटाडेटा हेरफेर से संबंधित कार्यों के लिए PyMuPDF एक बेहतरीन उपकरण है। हम पीडीएफ की मेटाडेटा जानकारी आसानी से पुनर्प्राप्त और बदल सकते हैं। हालाँकि, एक उल्लेखनीय कमजोरी set_xml_metadata पद्धति में है। यह विधि इसमें पारित किसी भी स्ट्रिंग को स्वीकार करती है और पिछले XML को इसके साथ अधिलेखित कर देती है जिससे जानकारी की अनजाने में हानि हो सकती है इस समस्या से बचने के लिए डेवलपर्स को XML मेटाडेटा में सही संशोधन सुनिश्चित करने के लिए अपने तर्क को लागू करने की आवश्यकता होती है।

इसी तरह के उत्पादों

 Hindi