ओपन सोर्स पायथन मेटाडेटा लाइब्रेरी
दस्तावेजों के मेटाडेटा को पढ़ने, संपादित करने और अद्यतन करने के लिए निःशुल्क और खुला स्रोत पायथन लाइब्रेरी।
पायथन के लिए tika-python API क्या है?
tika-python Apache Tika के लिए एक पायथन बाइंडिंग है, जो विभिन्न फ़ाइल स्वरूपों से टेक्स्ट और मेटाडेटा निकालने के लिए एक मजबूत ओपन-सोर्स टूलकिट है। दस्तावेज़ों, छवियों, वीडियो, ऑडियो फ़ाइलों और अभिलेखागार सहित सैकड़ों फ़ाइल प्रकारों के समर्थन के साथ, tika-python डेवलपर्स को सहज और कुशल तरीके से सामग्री निष्कर्षण और मेटाडेटा विश्लेषण को संभालने में सक्षम बनाता है।
टिका-पायथन एपीआई की विशेषताएं
tika-python is a powerful API that has rich features as follow:- व्यापक फ़ाइल प्रारूप समर्थन: पीडीएफ, वर्ड दस्तावेज़, एक्सेल स्प्रेडशीट, पावरपॉइंट प्रस्तुतियों, HTML, छवियों, मल्टीमीडिया फ़ाइलों आदि से पाठ और मेटाडेटा निकालता है।
- टेक्स्ट एक्स्ट्रैक्शन: फ़ाइलों को सादे टेक्स्ट में परिवर्तित करता है, जिससे यह खोज अनुक्रमण, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और डेटा खनन जैसे अनुप्रयोगों के लिए आदर्श बन जाता है।
- मेटाडेटा विश्लेषण: फ़ाइलों के लिए विस्तृत मेटाडेटा प्रदान करता है, जिसमें लेखक, निर्माण तिथि, संशोधन तिथि, MIME प्रकार और बहुत कुछ शामिल है।
- भाषा पहचान: दस्तावेज़ों में पाठ सामग्री की भाषा का स्वचालित रूप से पता लगाता है।
- सामग्री विश्लेषण: संरचनात्मक जानकारी, जैसे शीर्षक, पैराग्राफ़ और एम्बेडेड सामग्री के लिए फ़ाइलों को पार्स करता है।
- अपाचे टिका सर्वर के साथ एकीकरण: टिका REST API का लाभ उठाता है, जिससे स्केलेबल परिनियोजन और मुख्य अनुप्रयोग से फ़ाइल पार्सिंग को अलग करने की अनुमति मिलती है।
टिका-पायथन एपीआई के लाभ
- वाइड फॉर्मेट समर्थन: फ़ाइल प्रकारों की एक विशाल सरणी के साथ काम करता है।
- स्केलेबिलिटी: बड़े पैमाने पर सामग्री निष्कर्षण के लिए टिका सर्वर के साथ एकीकृत किया जा सकता है।
- क्रॉस-प्लेटफ़ॉर्म: पायथन और जावा स्थापित किसी भी प्लेटफ़ॉर्म पर चलता है।
- समृद्ध मेटाडेटा: विश्लेषण के लिए व्यापक मेटाडेटा निकालता है।
पायथन के लिए टिका-पायथन एपीआई के साथ आरंभ करना
अपने पायथन अनुप्रयोगों में टिका-पायथन का उपयोग करने के लिए आपको अपने सिस्टम पर पायथन 3.6+ संस्करण स्थापित करना होगा। इसलिए, पहले पायथन स्थापित करें और फिर pip और वर्चुअल वातावरण का उपयोग करके अपनी मशीन पर Hachoir API स्थापित करने के लिए नीचे दिए गए कमांड का उपयोग करें।
pip install tika
पायथन के लिए tika-Python API के साथ कार्य करना - उदाहरण
आप विभिन्न फ़ाइल प्रकारों से मेटाडेटा जानकारी पढ़ने के लिए tika-python API का उपयोग कर सकते हैं। API आपको कोड की कुछ पंक्तियों के साथ विभिन्न फ़ाइल स्वरूपों से मेटाडेटा जानकारी पढ़ने में सक्षम बनाता है। निम्नलिखित कोड नमूने दिखाते हैं कि पायथन अनुप्रयोगों में tika-python API का उपयोग कैसे किया जा सकता है।
पायथन के लिए tika-Python API का उपयोग करके किसी फ़ाइल की मेटाडेटा जानकारी पढ़ें
टिका-पायथन एपीआई आपको कोड की सिर्फ़ एक लाइन से फ़ाइल से मेटाडेटा जानकारी पढ़ने की सुविधा देता है। आप किसी भी दस्तावेज़ से मेटाडेटा जानकारी पढ़ने के लिए निम्न नमूना कोड का उपयोग कर सकते हैं।
उत्पादन
जब आप इस कोड को निष्पादित करेंगे, तो आउटपुट कुछ इस प्रकार होगा:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'