Open Source Python Metadata Library
Gratis og åpen kildekode Python-bibliotek for å lese, redigere og oppdatere metadata for dokumenter.
Hva er tika-python API for Python?
tika-python er en Python-binding for Apache Tika, et robust verktøysett med åpen kildekode for å trekke ut tekst og metadata fra ulike filformater. Med støtte for hundrevis av filtyper, inkludert dokumenter, bilder, videoer, lydfiler og arkiver, lar tika-python utviklere håndtere innholdsutvinning og metadataanalyse på en sømløs og effektiv måte.
Funksjoner av tika-python API
tika-python is a powerful API that has rich features as follow:- Omfattende støtte for filformater: Trekker ut tekst og metadata fra PDF-er, Word-dokumenter, Excel-regneark, PowerPoint-presentasjoner, HTML, bilder, multimediefiler og mer.
- Tekstekstrahering: Konverterer filer til ren tekst, noe som gjør den ideell for applikasjoner som søkeindeksering, naturlig språkbehandling (NLP) og datautvinning.
- Metadataanalyse: Gir detaljerte metadata for filer, inkludert forfatter, opprettelsesdato, endringsdato, MIME-type og mer.
- Språkgjenkjenning: Oppdager automatisk språket for tekstinnhold i dokumenter.
- Innholdsanalyse: Analyserer filer for strukturell informasjon, for eksempel overskrifter, avsnitt og innebygd innhold.
- Integrasjon med Apache Tika Server: Utnytter Tika REST API, som muliggjør skalerbare distribusjoner og separasjon av filparsing fra hovedapplikasjonen.
Fordeler med Tika-Python API
- Støtte for bredformat: Fungerer med et stort utvalg av filtyper.
- Skalerbarhet: Kan integreres med Tika-serveren for utvinning av innhold i stor skala.
- Tverrplattform: Kjører på alle plattformer med Python og Java installert.
- Rik metadata: Trekker ut omfattende metadata for analyse.
Komme i gang med Tika-Python API for Python
Bruk av tika-Python i dine Python-applikasjoner vil kreve at du installerer Python 3.6+ versjon på systemet ditt. Så installer først Python og bruk deretter kommandoene nedenfor for å installere Hachoir API på maskinen din ved å bruke pip og virtuelt miljø.
pip install tika
Arbeide med tika-Python API for Python - Eksempler
Du kan bruke tika-python API for å lese metadatainformasjonen fra forskjellige filtyper. API-lesene leser du metadatainformasjonen fra forskjellige filformater med bare noen få linjer med kode. Følgende kodeeksempler viser hvordan tika-python API kan brukes i Python-applikasjoner.
Les metadatainformasjon for en fil ved å bruke tika-Python API for Python
Tika-Python API lar deg lese metadatainformasjonen fra en fil med bare en enkelt kodelinje. Du kan bruke følgende eksempelkode for å lese metadatainformasjonen fra ethvert dokument.
Produksjon
Når du kjører denne koden, vil utdataene være noe lik følgende:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'