Open Source Python Metadata Library
Gratis & öppen källkod Python-bibliotek för att läsa, redigera och uppdatera metadata för dokument.
Vad är tika-python API för Python?
tika-python är en Python-bindning för Apache Tika, en robust verktygslåda med öppen källkod för att extrahera text och metadata från olika filformat. Med stöd för hundratals filtyper, inklusive dokument, bilder, videor, ljudfiler och arkiv, gör tika-python det möjligt för utvecklare att hantera innehållsextraktion och metadataanalys på ett sömlöst och effektivt sätt.
Funktioner i tika-python API
tika-python is a powerful API that has rich features as follow:- Omfattande stöd för filformat: Extraherar text och metadata från PDF-filer, Word-dokument, Excel-kalkylblad, PowerPoint-presentationer, HTML, bilder, multimediafiler och mer.
- Textextraktion: Konverterar filer till vanlig text, vilket gör den idealisk för applikationer som sökindexering, naturlig språkbehandling (NLP) och datautvinning.
- Metadataanalys: Ger detaljerad metadata för filer, inklusive författare, skapelsedatum, ändringsdatum, MIME-typ och mer.
- Språkidentifiering: Upptäcker automatiskt språket för textinnehåll i dokument.
- Innehållsanalys: Analyserar filer för strukturell information, såsom rubriker, stycken och inbäddat innehåll.
- Integration med Apache Tika Server: Utnyttjar Tika REST API, vilket möjliggör skalbara distributioner och separation av filanalys från huvudapplikationen.
Fördelar med Tika-Python API
- Stöd för bredformat: Fungerar med ett stort antal filtyper.
- Skalbarhet: Kan integreras med Tika-servern för storskalig innehållsextraktion.
- Cross-Platform: Körs på vilken plattform som helst med Python och Java installerat.
- Rich metadata: Extraherar omfattande metadata för analys.
Komma igång med Tika-Python API för Python
Om du använder tika-Python i dina Python-applikationer måste du installera Python 3.6+ version på ditt system. Så installera först Python och använd sedan nedanstående kommandon för att installera Hachoir API på din maskin med pip och virtuell miljö.
pip install tika
Arbeta med tika-Python API för Python - Exempel
Du kan använda tika-python API för att läsa metadatainformation från olika filtyper. API-filerna läser du metadatainformationen från olika filformat med bara några rader kod. Följande kodexempel visar hur tika-python API kan användas i Python-applikationer.
Läs metadatainformation för en fil med tika-Python API för Python
Tika-Python API låter dig läsa metadatainformationen från en fil med bara en enda rad kod. Du kan använda följande exempelkod för att läsa metadatainformationen från vilket dokument som helst.
Produktion
När du kör den här koden kommer utdata att vara något liknande följande:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'