Open Source Python Metadata Library
Bezplatná a open source knihovna Python pro čtení, úpravu a aktualizaci metadat dokumentů.
Co je tika-python API pro Python?
tika-python je vazba Pythonu pro Apache Tika, robustní open-source sadu nástrojů pro extrahování textu a metadat z různých formátů souborů. Díky podpoře stovek typů souborů, včetně dokumentů, obrázků, videí, zvukových souborů a archivů, tika-python umožňuje vývojářům zvládnout extrakci obsahu a analýzu metadat bezproblémovým a efektivním způsobem.
Vlastnosti tika-python API
tika-python is a powerful API that has rich features as follow:- Rozsáhlá podpora formátů souborů: Extrahuje text a metadata ze souborů PDF, dokumentů Word, tabulek Excel, prezentací PowerPoint, HTML, obrázků, multimediálních souborů a dalších.
- Extrakce textu: Převádí soubory na prostý text, takže je ideální pro aplikace, jako je indexování vyhledávání, zpracování přirozeného jazyka (NLP) a dolování dat.
- Analýza metadat: Poskytuje podrobná metadata pro soubory, včetně autora, data vytvoření, data úpravy, typu MIME a dalších.
- Detekce jazyka: Automaticky zjišťuje jazyk textového obsahu v dokumentech.
- Analýza obsahu: Analyzuje soubory na strukturální informace, jako jsou nadpisy, odstavce a vložený obsah.
- Integrace se serverem Apache Tika: Využívá rozhraní Tika REST API, které umožňuje škálovatelné nasazení a oddělení analýzy souborů od hlavní aplikace.
Výhody Tika-Python API
- Podpora širokého formátu: Funguje s velkým množstvím typů souborů.
- Škálovatelnost: Lze jej integrovat se serverem Tika pro extrakci obsahu ve velkém měřítku.
- Více platforem: Funguje na jakékoli platformě s nainstalovaným Pythonem a Javou.
- Rich Metadata: Extrahuje komplexní metadata pro analýzu.
Začínáme s Tika-Python API pro Python
Využití tika-Pythonu ve vašich aplikacích Python bude vyžadovat instalaci verze Pythonu 3.6+ na váš systém. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte do počítače Hachoir API pomocí pip a virtuální prostředí.
pip install tika
Práce s tika-Python API pro Python - příklady
Pro čtení informací o metadatech z různých typů souborů můžete použít tika-python API. Rozhraní API umožňuje číst informace o metadatech z různých formátů souborů pomocí několika řádků kódu. Následující ukázky kódu ukazují, jak lze tika-python API použít v aplikacích Pythonu.
Přečtěte si informace o metadatech souboru pomocí tika-Python API pro Python
Tika-Python API vám umožňuje číst informace o metadatech ze souboru pomocí jediného řádku kódu. Následující ukázkový kód můžete použít ke čtení informací o metadatech z libovolného dokumentu.
Výstup
Když spustíte tento kód, výstup bude poněkud podobný následujícímu:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'