ओपन सोर्स पायथन मेटाडेटा लाइब्रेरी

दस्तावेजों के मेटाडेटा को पढ़ने, संपादित करने और अद्यतन करने के लिए निःशुल्क और खुला स्रोत पायथन लाइब्रेरी।

पायथन के लिए tika-python API क्या है?

tika-python Apache Tika के लिए एक पायथन बाइंडिंग है, जो विभिन्न फ़ाइल स्वरूपों से टेक्स्ट और मेटाडेटा निकालने के लिए एक मजबूत ओपन-सोर्स टूलकिट है। दस्तावेज़ों, छवियों, वीडियो, ऑडियो फ़ाइलों और अभिलेखागार सहित सैकड़ों फ़ाइल प्रकारों के समर्थन के साथ, tika-python डेवलपर्स को सहज और कुशल तरीके से सामग्री निष्कर्षण और मेटाडेटा विश्लेषण को संभालने में सक्षम बनाता है।

टिका-पायथन एपीआई की विशेषताएं

tika-python is a powerful API that has rich features as follow:
  • व्यापक फ़ाइल प्रारूप समर्थन: पीडीएफ, वर्ड दस्तावेज़, एक्सेल स्प्रेडशीट, पावरपॉइंट प्रस्तुतियों, HTML, छवियों, मल्टीमीडिया फ़ाइलों आदि से पाठ और मेटाडेटा निकालता है।
  • टेक्स्ट एक्स्ट्रैक्शन: फ़ाइलों को सादे टेक्स्ट में परिवर्तित करता है, जिससे यह खोज अनुक्रमण, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) और डेटा खनन जैसे अनुप्रयोगों के लिए आदर्श बन जाता है।
  • मेटाडेटा विश्लेषण: फ़ाइलों के लिए विस्तृत मेटाडेटा प्रदान करता है, जिसमें लेखक, निर्माण तिथि, संशोधन तिथि, MIME प्रकार और बहुत कुछ शामिल है।
  • भाषा पहचान: दस्तावेज़ों में पाठ सामग्री की भाषा का स्वचालित रूप से पता लगाता है।
  • सामग्री विश्लेषण: संरचनात्मक जानकारी, जैसे शीर्षक, पैराग्राफ़ और एम्बेडेड सामग्री के लिए फ़ाइलों को पार्स करता है।
  • अपाचे टिका सर्वर के साथ एकीकरण: टिका REST API का लाभ उठाता है, जिससे स्केलेबल परिनियोजन और मुख्य अनुप्रयोग से फ़ाइल पार्सिंग को अलग करने की अनुमति मिलती है।

टिका-पायथन एपीआई के लाभ

  • वाइड फॉर्मेट समर्थन: फ़ाइल प्रकारों की एक विशाल सरणी के साथ काम करता है।
  • स्केलेबिलिटी: बड़े पैमाने पर सामग्री निष्कर्षण के लिए टिका सर्वर के साथ एकीकृत किया जा सकता है।
  • क्रॉस-प्लेटफ़ॉर्म: पायथन और जावा स्थापित किसी भी प्लेटफ़ॉर्म पर चलता है।
  • समृद्ध मेटाडेटा: विश्लेषण के लिए व्यापक मेटाडेटा निकालता है।

पायथन के लिए टिका-पायथन एपीआई के साथ आरंभ करना

GitHub

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

अपने पायथन अनुप्रयोगों में टिका-पायथन का उपयोग करने के लिए आपको अपने सिस्टम पर पायथन 3.6+ संस्करण स्थापित करना होगा। इसलिए, पहले पायथन स्थापित करें और फिर pip और वर्चुअल वातावरण का उपयोग करके अपनी मशीन पर Hachoir API स्थापित करने के लिए नीचे दिए गए कमांड का उपयोग करें।


pip install tika

पायथन के लिए tika-Python API के साथ कार्य करना - उदाहरण

आप विभिन्न फ़ाइल प्रकारों से मेटाडेटा जानकारी पढ़ने के लिए tika-python API का उपयोग कर सकते हैं। API आपको कोड की कुछ पंक्तियों के साथ विभिन्न फ़ाइल स्वरूपों से मेटाडेटा जानकारी पढ़ने में सक्षम बनाता है। निम्नलिखित कोड नमूने दिखाते हैं कि पायथन अनुप्रयोगों में tika-python API का उपयोग कैसे किया जा सकता है।

पायथन के लिए tika-Python API का उपयोग करके किसी फ़ाइल की मेटाडेटा जानकारी पढ़ें

टिका-पायथन एपीआई आपको कोड की सिर्फ़ एक लाइन से फ़ाइल से मेटाडेटा जानकारी पढ़ने की सुविधा देता है। आप किसी भी दस्तावेज़ से मेटाडेटा जानकारी पढ़ने के लिए निम्न नमूना कोड का उपयोग कर सकते हैं।

उत्पादन

जब आप इस कोड को निष्पादित करेंगे, तो आउटपुट कुछ इस प्रकार होगा:


'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'

निष्कर्ष

The Tika-Python API is a robust and versatile tool that simplifies the extraction of text and metadata from a wide range of file formats. Its seamless integration with Apache Tika ensures powerful functionality, making it suitable for applications in content management, digital forensics, document indexing, and natural language processing. With its extensive format support, scalability, and ability to handle complex metadata, Tika-Python is an essential resource for developers and organizations looking to automate and streamline metadata and content extraction workflows. Whether used for small-scale projects or large enterprise solutions, Tika-Python offers reliability, flexibility, and efficiency.

इसी तरह के उत्पादों

 Hindi