کتابخانه فراداده پایتون منبع باز
کتابخانه رایگان و منبع باز پایتون برای خواندن، ویرایش و به روز رسانی ابرداده اسناد.
tika-python API برای پایتون چیست؟
tika-python یک اتصال پایتون برای Apache Tika است، یک جعبه ابزار منبع باز قوی برای استخراج متن و ابرداده از فرمت های مختلف فایل. tika-python با پشتیبانی از صدها نوع فایل، از جمله اسناد، تصاویر، ویدئوها، فایلهای صوتی و بایگانیها، توسعهدهندگان را قادر میسازد تا استخراج محتوا و تجزیه و تحلیل فراداده را به شیوهای یکپارچه و کارآمد انجام دهند.
ویژگی های tika-python API
tika-python is a powerful API that has rich features as follow:- پشتیبانی گسترده از فرمت فایل: متن و ابرداده را از فایلهای PDF، اسناد Word، صفحات گسترده Excel، ارائههای پاورپوینت، HTML، تصاویر، فایلهای چندرسانهای و موارد دیگر استخراج میکند.
- استخراج متن: فایلها را به متن ساده تبدیل میکند و آن را برای برنامههایی مانند فهرستبندی جستجو، پردازش زبان طبیعی (NLP) و دادهکاوی ایدهآل میکند.
- تجزیه و تحلیل فراداده: فراداده های دقیقی را برای فایل ها از جمله نویسنده، تاریخ ایجاد، تاریخ اصلاح، نوع MIME و موارد دیگر ارائه می دهد.
- تشخیص زبان: بهطور خودکار زبان محتوای نوشتاری را در اسناد تشخیص میدهد.
- تحلیل محتوا: فایلها را برای اطلاعات ساختاری، مانند سرفصلها، پاراگرافها و محتوای جاسازی شده تجزیه میکند.
- ادغام با سرور Apache Tika: از Tika REST API استفاده میکند و امکان استقرار مقیاسپذیر و جداسازی فایلها را از برنامه اصلی فراهم میکند.
مزایای Tika-Python API
- پشتیبانی از فرمت گسترده: با آرایه وسیعی از انواع فایل کار می کند.
- مقیاسپذیری: میتواند با سرور Tika برای استخراج محتوای در مقیاس بزرگ ادغام شود.
- Cross-Platform: روی هر پلتفرمی که پایتون و جاوا نصب شده باشد اجرا میشود.
- فراداده غنی: فراداده جامع را برای تجزیه و تحلیل استخراج می کند.
شروع به کار با Tika-Python API برای پایتون
استفاده از tika-Python در برنامه های پایتون شما را ملزم به نصب نسخه 3.6+ Python بر روی سیستم خود می کند. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب Hachoir API بر روی دستگاه خود با استفاده از pip و محیط مجازی.
pip install tika
کار با tika-Python API برای Python - مثالها
شما می توانید از API tika-python برای خواندن اطلاعات فراداده از انواع فایل های مختلف استفاده کنید. API به شما امکان میدهد اطلاعات فراداده را از فرمتهای فایل مختلف تنها با چند خط کد بخوانید. نمونه کد زیر نشان می دهد که چگونه API tika-python می تواند در برنامه های پایتون استفاده شود.
اطلاعات فراداده یک فایل را با استفاده از tika-Python API برای پایتون بخوانید
Tika-Python API به شما امکان میدهد اطلاعات فراداده را از یک فایل تنها با یک خط کد بخوانید. برای خواندن اطلاعات فراداده از هر سندی می توانید از کد نمونه زیر استفاده کنید.
خروجی
هنگامی که این کد را اجرا می کنید، خروجی تا حدودی شبیه به زیر خواهد بود:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'