PyMuPDF
ספריית Python בקוד פתוח לניהול מטא נתונים של PDF
נסה את ספריית PyMuPDF, Free & Open Source Python כדי לגשת ולשנות מטא נתונים של מסמכי PDF.
מה זה PyMuPDF?
PyMuPDF, הידועה גם בשם Fitz, היא ספריית Python בקוד פתוח המציעה תכונות רבות כמו ניתוח קובצי PDF, פיצול ומיזוג קובצי PDF וכו', אך בדף זה נדון רק כיצד מפתחי Python יכולים להשתמש בספריית PyMuPDF כדי לטפל במשימות הקשורות למטא נתונים של PDF כגון:
- קרא מטא נתונים של PDF: PyMuPDF תומך בגישה למטא נתונים של מסמכי PDF המכילים מידע כגון מחבר, כותרת, נושא ותאריך יצירה וכו'.
- שנה מטא נתונים של PDF: הספרייה מאפשרת גם לשנות מטא נתונים של מסמכי PDF.
- קרא מטא-נתונים של XML: מסמכי PDF מכילים גם מטא-נתונים של XML שאינם מוגבלים למאפייני מסמך סטנדרטיים כמו מחבר, כותרת וכו' ויכולים לכלול מטא-נתונים נוספים. עם PyMuPDF, מפתחים יכולים גם לקרוא אותו.
- שנה מטא נתונים של XML: מפתחים יכולים גם לשנות מטא נתונים של XML של קובצי PDF באמצעות ספריית PyMuPDF.
תחילת העבודה עם PyMuPDF
אתה צריך Python גרסה 3.8.0 ומעלה כדי להתקין ולהשתמש ב-PyMuPDF. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין PyMuPDF במחשב שלך באמצעות pip וסביבה וירטואלית.
לינוקס
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
חלונות
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
קרא מטא נתונים של PDF
אנו יכולים לקרוא מטא-נתונים של PDF באמצעות המטא-נתוניםחבר של ספריית PyMuPDF המכילה את תוכן המטא-נתונים המלא של המסמך. קטע הקוד שלהלן מראה כיצד להשיג את המטא נתונים של קובץ PDF מחבר המטא נתונים:
תְפוּקָה
צילום המסך שלהלן מציג את המטא נתונים שאוחזרו מקובץ PDF באמצעות PyMuPDF:
ערוך מטא נתונים של PDF
אנו יכולים לערוך את המטא נתונים של קובצי PDF באמצעות ספריית PyMuPDF על ידי העברת מילון המכיל את השדות שאנו רוצים לשנות יחד עם הערכים החדשים שלהם לשיטת set_metadata כפי שמוצג בקטע הקוד שלהלן:
קרא מטא נתונים של XML של קובצי PDF
אנו יכולים לאחזר מטא נתונים של XML של PDF באמצעות ספריית PyMuPDF. אנו משתמשים בשיטה get_xml_metadata המחזירה את כל המטא נתונים של ה-XML כפי שמוצג בקטע הקוד שלהלן:
תְפוּקָה
צילום המסך שלהלן מציג את המטא-נתונים של XML שאוחזרו מקובץ PDF באמצעות PyMuPDF:
שנה מטא-נתונים של XML של קובצי PDF
אנו יכולים להגדיר או לשנות את מטא-נתוני ה-XML של PDF באמצעות שיטת set_xml_metadata של ספריית PyMuPDF. זה לא פשוט כמו החלפת המטא-נתונים ברמת המסמך מכיוון שה-set_xml_metadata יקבל כל מחרוזת ויחליף את המטא-נתונים המלאים של ה-XML במחרוזת המועברת אליו.
על מנת למנוע מחיקה לא מכוונת של כל מידע על מטא נתונים, תחילה אנו מביאים את המטא נתונים המלאים של XML כמחרוזת באמצעות הget_xml_metadata ולאחר מכן משתמשים בשיטת ההחלף של המחרוזת כדי להחליף את המידע הרצוי לבסוף, אנו מעבירים את ה-XML המלא עם השדות שהשתנו לשיטת set_xml_metadata אשר משנה את כל המטא-נתונים של ה-XML של ה-PDF. בדוק את קטע הקוד למטה לפרטים:
סיכום
לסיכום, PyMuPDF הוא כלי נהדר למשימות הקשורות למניפולציה של מטא נתונים. אנו יכולים בקלות לאחזר ולשנות את מידע המטא נתונים של קובצי PDF. עם זאת, חולשה בולטת טמונה בשיטת set_xml_metadata . שיטה זו מקבלת כל מחרוזת המועברת אליה ומחליפה איתה את ה-XML הקודם מה שעלול לגרום לאובדן לא מכוון של מידע כדי למנוע בעיה זו מפתחים נדרשים ליישם את ההיגיון שלהם כדי להבטיח שינויים נכונים במטא נתונים של XML.