مكتبة بيانات التعريف مفتوحة المصدر للغة بايثون
مكتبة Python مجانية ومفتوحة المصدر لقراءة وتحرير وتحديث البيانات الوصفية للمستندات.
ما هي واجهة برمجة تطبيقات tika-python لـ Python؟
tika-python عبارة عن رابط Python لـ Apache Tika، وهي مجموعة أدوات مفتوحة المصدر قوية لاستخراج النصوص والبيانات الوصفية من تنسيقات ملفات مختلفة. مع دعم مئات أنواع الملفات، بما في ذلك المستندات والصور ومقاطع الفيديو وملفات الصوت والأرشيفات، يتيح tika-python للمطورين التعامل مع استخراج المحتوى وتحليل البيانات الوصفية بطريقة سلسة وفعالة.
مميزات واجهة برمجة التطبيقات tika-python
tika-python is a powerful API that has rich features as follow:- دعم تنسيقات الملفات الشاملة: يستخرج النص والبيانات الوصفية من ملفات PDF، ومستندات Word، وجداول بيانات Excel، وعروض PowerPoint، وHTML، والصور، وملفات الوسائط المتعددة، والمزيد.
- استخراج النص: تحويل الملفات إلى نص عادي، مما يجعله مثاليًا للتطبيقات مثل فهرسة البحث، ومعالجة اللغة الطبيعية (NLP)، واستخراج البيانات.
- تحليل البيانات الوصفية: يوفر بيانات وصفية مفصلة للملفات، بما في ذلك المؤلف وتاريخ الإنشاء وتاريخ التعديل ونوع MIME والمزيد.
- اكتشاف اللغة: يكتشف تلقائيًا لغة محتوى النص في المستندات.
- تحليل المحتوى: يقوم بتحليل الملفات للحصول على معلومات هيكلية، مثل العناوين والفقرات والمحتوى المضمن.
- التكامل مع Apache Tika Server: الاستفادة من واجهة برمجة تطبيقات Tika REST، مما يسمح بالنشر القابل للتطوير وفصل تحليل الملفات عن التطبيق الرئيسي.
مزايا واجهة برمجة التطبيقات Tika-Python
- دعم التنسيق الواسع: يعمل مع مجموعة كبيرة ومتنوعة من أنواع الملفات.
- قابلية التوسع: يمكن التكامل مع خادم Tika لاستخراج المحتوى على نطاق واسع.
- متعدد المنصات: يعمل على أي منصة مثبت عليها Python وJava.
- البيانات الوصفية الغنية: تستخرج بيانات وصفية شاملة للتحليل.
البدء باستخدام واجهة برمجة التطبيقات Tika-Python للغة Python
سيتطلب استخدام tika-Python في تطبيقات Python تثبيت إصدار Python 3.6+ على نظامك. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت Hachoir API على جهازك باستخدام pip وvirtual Environment.
pip install tika
العمل مع واجهة برمجة التطبيقات tika-Python لـ Python - أمثلة
يمكنك استخدام واجهة برمجة التطبيقات tika-python لقراءة معلومات البيانات الوصفية من أنواع ملفات مختلفة. تتيح لك واجهة برمجة التطبيقات قراءة معلومات البيانات الوصفية من تنسيقات ملفات مختلفة باستخدام بضعة أسطر من التعليمات البرمجية فقط. توضح عينات التعليمات البرمجية التالية كيف يمكن استخدام واجهة برمجة التطبيقات tika-python في تطبيقات Python.
قراءة معلومات البيانات الوصفية لملف باستخدام واجهة برمجة تطبيقات tika-Python لـ Python
تتيح لك واجهة برمجة التطبيقات Tika-Python قراءة معلومات البيانات الوصفية من ملف بسطر واحد فقط من التعليمات البرمجية. يمكنك استخدام التعليمات البرمجية النموذجية التالية لقراءة معلومات البيانات الوصفية من أي مستند.
الناتج
عند تنفيذ هذا الكود، سيكون الناتج مشابهًا إلى حد ما لما يلي:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'