Open Source Python Metadata Library
Gratis & open source Python-bibliotek til at læse, redigere og opdatere metadata for dokumenter.
Hvad er tika-python API for Python?
tika-python er en Python-binding til Apache Tika, et robust open source-værktøjssæt til at udtrække tekst og metadata fra forskellige filformater. Med understøttelse af hundredvis af filtyper, herunder dokumenter, billeder, videoer, lydfiler og arkiver, gør tika-python det muligt for udviklere at håndtere indholdsudtrækning og metadataanalyse på en problemfri og effektiv måde.
Funktioner af tika-python API
tika-python is a powerful API that has rich features as follow:- Omfattende filformatunderstøttelse: Udtrækker tekst og metadata fra PDF'er, Word-dokumenter, Excel-regneark, PowerPoint-præsentationer, HTML, billeder, multimediefiler og mere.
- Tekstekstraktion: Konverterer filer til almindelig tekst, hvilket gør den ideel til programmer som søgeindeksering, naturlig sprogbehandling (NLP) og datamining.
- Metadataanalyse: Giver detaljerede metadata for filer, inklusive forfatter, oprettelsesdato, ændringsdato, MIME-type og mere.
- Sprogregistrering: Registrerer automatisk sproget i tekstindholdet i dokumenter.
- Indholdsanalyse: Analyserer filer til strukturel information, såsom overskrifter, afsnit og indlejret indhold.
- Integration med Apache Tika Server: Udnytter Tika REST API, hvilket muliggør skalerbare implementeringer og adskillelse af filparsing fra hovedapplikationen.
Fordele ved Tika-Python API
- Bredformatunderstøttelse: Fungerer med en bred vifte af filtyper.
- Skalerbarhed: Kan integreres med Tika-serveren for at udvinde indhold i stor skala.
- Platform på tværs: Kører på enhver platform med Python og Java installeret.
- Rige metadata: Udtrækker omfattende metadata til analyse.
Kom godt i gang med Tika-Python API til Python
Brug af tika-Python i dine Python-applikationer kræver, at du installerer Python 3.6+ version på dit system. Så installer først Python og brug derefter nedenstående kommandoer til at installere Hachoir API på din maskine ved hjælp af pip og virtuelt miljø.
pip install tika
Arbejde med tika-Python API for Python - Eksempler
Du kan bruge tika-python API'et til at læse metadataoplysningerne fra forskellige filtyper. API-leserne læser du metadataoplysningerne fra forskellige filformater med blot et par linjer kode. Følgende kodeeksempler viser, hvordan tika-python API kan bruges i Python-applikationer.
Læs metadataoplysninger for en fil ved hjælp af tika-Python API for Python
Tika-Python API lader dig læse metadataoplysningerne fra en fil med kun en enkelt linje kode. Du kan bruge følgende eksempelkode til at læse metadataoplysningerne fra ethvert dokument.
Produktion
Når du udfører denne kode, vil outputtet minde noget om følgende:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'