Бібліотека метаданих Python з відкритим кодом
Безкоштовна бібліотека Python із відкритим кодом для читання, редагування й оновлення метаданих документів.
Що таке API tika-python для Python?
tika-python — це прив’язка Python для Apache Tika, надійного набору інструментів із відкритим кодом для вилучення тексту та метаданих із різних форматів файлів. Завдяки підтримці сотень типів файлів, у тому числі документів, зображень, відео, аудіофайлів та архівів, tika-python дозволяє розробникам безперебійно й ефективно вилучати вміст і аналізувати метадані.
Особливості API tika-python
tika-python is a powerful API that has rich features as follow:- Розширена підтримка форматів файлів: витягує текст і метадані з PDF-файлів, документів Word, електронних таблиць Excel, презентацій PowerPoint, HTML, зображень, мультимедійних файлів тощо.
- Вилучення тексту: перетворює файли на звичайний текст, що робить його ідеальним для таких програм, як пошукове індексування, обробка природної мови (NLP) і аналіз даних.
- Аналіз метаданих: надає докладні метадані для файлів, зокрема автора, дату створення, дату зміни, тип MIME тощо.
- Визначення мови: автоматично визначає мову текстового вмісту в документах.
- Аналіз вмісту: аналізує файли на предмет структурної інформації, такої як заголовки, абзаци та вбудований вміст.
- Інтеграція з сервером Apache Tika: використовує Tika REST API, що дозволяє розгортати масштабовані та відокремлювати аналіз файлів від основної програми.
Переваги Tika-Python API
- Підтримка широкого формату: працює з великою кількістю типів файлів.
- Масштабованість: можна інтегрувати з сервером Tika для великомасштабного вилучення вмісту.
- Кросплатформенність: працює на будь-якій платформі, де встановлено Python і Java.
- Розширені метадані: витягує повні метадані для аналізу.
Початок роботи з Tika-Python API для Python
Використання tika-Python у ваших програмах Python вимагатиме встановлення у вашій системі версії Python 3.6+. Отже, спочатку встановіть Python, а потім скористайтеся наведеними нижче командами, щоб установити Hachoir API на вашій машині за допомогою pip і віртуальне середовище.
pip install tika
Робота з tika-Python API для Python - приклади
Ви можете використовувати API tika-python для читання інформації метаданих з різних типів файлів. API дозволяє зчитувати метадані з різних форматів файлів лише за допомогою кількох рядків коду. Наведені нижче зразки коду показують, як API tika-python можна використовувати в програмах Python.
Читання інформації про метадані файлу за допомогою tika-Python API для Python
API Tika-Python дозволяє читати інформацію метаданих із файлу за допомогою лише одного рядка коду. Ви можете використовувати наведений нижче зразок коду для читання інформації метаданих з будь-якого документа.
Вихід
Коли ви виконуєте цей код, результат буде дещо схожий на такий:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'