ספריית מטא נתונים בקוד פתוח של Python
ספריית Python בחינם וקוד פתוח לקריאה, עריכה ועדכון מטא נתונים של מסמכים.
מהו API של tika-python עבור Python?
tika-python היא כריכת Python עבור Apache Tika, ערכת כלים חזקה בקוד פתוח לחילוץ טקסט ומטא נתונים מפורמטים שונים של קבצים. עם תמיכה במאות סוגי קבצים, כולל מסמכים, תמונות, סרטונים, קבצי אודיו וארכיונים, tika-python מאפשרת למפתחים לטפל בחילוץ תוכן וניתוח מטא נתונים בצורה חלקה ויעילה.
תכונות של tika-python API
tika-python is a powerful API that has rich features as follow:- תמיכה נרחבת בפורמט קבצים: מחלץ טקסט ומטא נתונים מקובצי PDF, מסמכי Word, גיליונות אלקטרוניים של Excel, מצגות PowerPoint, HTML, תמונות, קובצי מולטימדיה ועוד.
- חילוץ טקסט: ממירה קבצים לטקסט רגיל, מה שהופך אותו לאידיאלי עבור יישומים כמו אינדקס חיפוש, עיבוד שפה טבעית (NLP) וכריית נתונים.
- ניתוח מטא נתונים: מספק מטא נתונים מפורטים עבור קבצים, כולל מחבר, תאריך יצירה, תאריך שינוי, סוג MIME ועוד.
- זיהוי שפה: מזהה באופן אוטומטי את שפת תוכן הטקסט במסמכים.
- ניתוח תוכן: מנתח קבצים למידע מבני, כגון כותרות, פסקאות ותוכן מוטבע.
- שילוב עם Apache Tika Server: ממנף את Tika REST API, המאפשר פריסות מדרגיות והפרדה של ניתוח קבצים מהאפליקציה הראשית.
היתרונות של Tika-Python API
- תמיכה בפורמט רחב: עובד עם מגוון עצום של סוגי קבצים.
- מדרגיות: יכול להשתלב עם שרת Tika לחילוץ תוכן בקנה מידה גדול.
- חוצה פלטפורמות: פועל בכל פלטפורמה שבה מותקנות Python ו-Java.
- מטא נתונים עשירים: מחלץ מטא נתונים מקיפים לניתוח.
תחילת העבודה עם Tika-Python API עבור Python
שימוש ב-tika-Python ביישומי Python שלך ידרוש ממך להתקין את גרסת Python 3.6+ במערכת שלך. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין את Hachoir API במחשב שלך באמצעות pip וסביבה וירטואלית.
pip install tika
עבודה עם tika-Python API עבור Python - דוגמאות
אתה יכול להשתמש בממשק API של tika-python לקריאת מידע המטא נתונים מסוגי קבצים שונים. בממשק ה-API אתה קורא את מידע המטא נתונים מפורמטים שונים של קבצים עם כמה שורות קוד בלבד. דוגמאות הקוד הבאות מראות כיצד ניתן להשתמש בממשק API של tika-python ביישומי Python.
קרא מידע על מטא נתונים של קובץ באמצעות tika-Python API עבור Python
API של Tika-Python מאפשר לך לקרוא את מידע המטא נתונים מקובץ באמצעות שורת קוד אחת בלבד. אתה יכול להשתמש בקוד לדוגמה הבא כדי לקרוא את מידע המטא נתונים מכל מסמך.
תְפוּקָה
כאשר אתה מפעיל את הקוד הזה, הפלט יהיה דומה במקצת לחלק הבא:
'tiff:ImageLength': '720', 'resourceName': "b'media_file.mp4'", 'dcterms:created': '1904-01-01T00:00:00Z', 'dcterms:modified': '1904-01-01T00:00:00Z', 'xmpDM:audioChannelType': 'Stereo', 'xmpDM:audioSampleRate': '44100', 'xmpDM:videoCompressor': 'AVC Coding', 'X-TIKA:Parsed-By': ['org.apache.tika.parser.DefaultParser', 'org.apache.tika.parser.mp4.MP4Parser'], 'X-TIKA:parse_time_millis': '155', 'X-TIKA:embedded_depth': '0', 'Content-Length': '18630470', 'tiff:ImageWidth': '1280', 'xmpDM:duration': '116.26', 'Content-Type': 'video/mp4'