オープンソースの Python メタデータ ライブラリ
ドキュメントのメタデータを読み取り、編集、更新するための無料のオープンソース Python ライブラリ。
Python 用の tika-python API とは何ですか?
tika-python は、さまざまなファイル形式からテキストとメタデータを抽出するための堅牢なオープンソース ツールキットである Apache Tika の Python バインディングです。ドキュメント、画像、ビデオ、オーディオ ファイル、アーカイブなど、数百種類のファイル タイプをサポートしている tika-python により、開発者はコンテンツの抽出とメタデータ分析をシームレスかつ効率的に処理できます。
tika-python APIの機能
tika-python is a powerful API that has rich features as follow:- 広範なファイル形式のサポート: PDF、Word 文書、Excel スプレッドシート、PowerPoint プレゼンテーション、HTML、画像、マルチメディア ファイルなどからテキストとメタデータを抽出します。
- テキスト抽出: ファイルをプレーンテキストに変換し、検索インデックス作成、自然言語処理 (NLP)、データマイニングなどのアプリケーションに最適です。
- メタデータ分析: 作成者、作成日、変更日、MIME タイプなど、ファイルの詳細なメタデータを提供します。
- 言語検出: ドキュメント内のテキスト コンテンツの言語を自動的に検出します。
- コンテンツ分析: 見出し、段落、埋め込みコンテンツなどの構造情報についてファイルを解析します。
- Apache Tika Server との統合: Tika REST API を活用して、スケーラブルな展開とメイン アプリケーションからのファイル解析の分離を可能にします。
Tika-Python APIの利点
- 幅広いフォーマットのサポート: 幅広いファイルタイプに対応します。
- スケーラビリティ: 大規模なコンテンツ抽出のために Tika サーバーと統合できます。
- クロスプラットフォーム: Python と Java がインストールされているあらゆるプラットフォームで実行できます。
- 豊富なメタデータ: 分析用に包括的なメタデータを抽出します。
Python 用 Tika-Python API を使い始める
Python アプリケーションで tika-Python を利用するには、システムに Python 3.6 以降のバージョンをインストールする必要があります。まず Python をインストールし、次に以下のコマンドを使用して、pip と 仮想環境 を使用してマシンに Hachoir API をインストールします。
pip install tika
Python 用 tika-Python API の使用 - 例
tika-python API を使用して、さまざまなファイル タイプからメタデータ情報を読み取ることができます。この API を使用すると、わずか数行のコードでさまざまなファイル形式からメタデータ情報を読み取ることができます。次のコード サンプルは、tika-python API を Python アプリケーションで使用する方法を示しています。
Python 用の tika-Python API を使用してファイルのメタデータ情報を読み取る
Tika-Python API を使用すると、たった 1 行のコードでファイルからメタデータ情報を読み取ることができます。次のサンプル コードを使用して、任意のドキュメントからメタデータ情報を読み取ることができます。
出力
このコードを実行すると、出力は次のようになります。
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'