오픈소스 파이썬 메타데이터 라이브러리
문서의 메타데이터를 읽고, 편집하고, 업데이트하는 무료 오픈 소스 Python 라이브러리입니다.
Python용 tika-python API는 무엇인가요?
tika-python은 다양한 파일 형식에서 텍스트와 메타데이터를 추출하기 위한 강력한 오픈소스 툴킷인 Apache Tika에 대한 Python 바인딩입니다. 문서, 이미지, 비디오, 오디오 파일, 아카이브를 포함한 수백 가지 파일 형식을 지원하는 tika-python은 개발자가 매끄럽고 효율적인 방식으로 콘텐츠 추출 및 메타데이터 분석을 처리할 수 있도록 합니다.
tika-python API의 특징
tika-python is a powerful API that has rich features as follow:- 광범위한 파일 형식 지원: PDF, Word 문서, Excel 스프레드시트, PowerPoint 프레젠테이션, HTML, 이미지, 멀티미디어 파일 등에서 텍스트와 메타데이터를 추출합니다.
- 텍스트 추출: 파일을 일반 텍스트로 변환하므로 검색 인덱싱, 자연어 처리(NLP), 데이터 마이닝과 같은 애플리케이션에 이상적입니다.
- 메타데이터 분석: 작성자, 생성 날짜, 수정 날짜, MIME 유형 등을 포함하여 파일에 대한 자세한 메타데이터를 제공합니다.
- 언어 감지: 문서의 텍스트 콘텐츠 언어를 자동으로 감지합니다.
- 콘텐츠 분석: 제목, 문단, 포함된 콘텐츠 등의 구조적 정보를 위해 파일을 구문 분석합니다.
- Apache Tika 서버와의 통합: Tika REST API를 활용하여 확장 가능한 배포와 기본 애플리케이션에서 파일 구문 분석을 분리할 수 있습니다.
Tika-Python API의 장점
- 와이드 포맷 지원: 광범위한 파일 형식을 지원합니다.
- 확장성: 대규모 콘텐츠 추출을 위해 Tika 서버와 통합할 수 있습니다.
- 크로스 플랫폼: Python과 Java가 설치된 모든 플랫폼에서 실행됩니다.
- 풍부한 메타데이터: 분석을 위해 포괄적인 메타데이터를 추출합니다.
Python을 위한 Tika-Python API 시작하기
Python 애플리케이션에서 tika-Python을 활용하려면 시스템에 Python 3.6+ 버전을 설치해야 합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경을 사용하여 컴퓨터에 Hachoir API를 설치합니다.
pip install tika
Python을 위한 tika-Python API로 작업하기 - 예제
tika-python API를 사용하여 다양한 파일 유형에서 메타데이터 정보를 읽을 수 있습니다. 이 API를 사용하면 몇 줄의 코드만으로 다양한 파일 형식에서 메타데이터 정보를 읽을 수 있습니다. 다음 코드 샘플은 tika-python API를 Python 애플리케이션에서 사용하는 방법을 보여줍니다.
Python용 tika-Python API를 사용하여 파일의 메타데이터 정보 읽기
Tika-Python API를 사용하면 단 한 줄의 코드로 파일에서 메타데이터 정보를 읽을 수 있습니다. 다음 샘플 코드를 사용하여 모든 문서에서 메타데이터 정보를 읽을 수 있습니다.
산출
이 코드를 실행하면 출력은 다음과 비슷합니다.
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'