PyMuPDF

 
 

ספריית Python בקוד פתוח לניהול מטא נתונים של PDF

נסה את ספריית PyMuPDF, Free & Open Source Python כדי לגשת ולשנות מטא נתונים של מסמכי PDF.

מה זה PyMuPDF?

PyMuPDF, הידועה גם בשם Fitz, היא ספריית Python בקוד פתוח המציעה תכונות רבות כמו ניתוח קובצי PDF, פיצול ומיזוג קובצי PDF וכו', אך בדף זה נדון רק כיצד מפתחי Python יכולים להשתמש בספריית PyMuPDF כדי לטפל ב-PDF משימות הקשורות למטא נתונים כגון:

  • קרא מטא נתונים של PDF: PyMuPDF תומך בגישה למטא נתונים של מסמכי PDF המכילים מידע כגון מחבר, כותרת, נושא ותאריך יצירה וכו'.
  • שנה מטא נתונים של PDF: הספרייה מאפשרת גם לשנות מטא נתונים של מסמכי PDF.
  • קרא מטא נתונים של XML: מסמכי PDF מכילים גם מטא נתונים של XML שאינם מוגבלים למאפייני מסמך סטנדרטיים כמו מחבר, כותרת וכו' ויכולים לכלול מטא נתונים נוספים. עם PyMuPDF, מפתחים יכולים גם לקרוא אותו.
  • שנה מטא נתונים של XML: מפתחים יכולים גם לשנות מטא נתונים של XML של קובצי PDF באמצעות ספריית PyMuPDF.
GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם PyMuPDF

אתה צריך Python גרסה 3.8.0 ומעלה כדי להתקין ולהשתמש ב-PyMuPDF. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין PyMuPDF במחשב שלך באמצעות pip וסביבה וירטואלית א>.

לינוקס


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

חלונות


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

קרא מטא נתונים של PDF

אנו יכולים לקרוא מטא נתונים של קובץ PDF באמצעות החברמטא נתונים בספריית PyMuPDF המכילה את תוכן המטא נתונים המלא של המסמך. קטע הקוד שלהלן מראה כיצד להשיג את המטא נתונים של קובץ PDF מחבר המטא נתונים:

תְפוּקָה

צילום המסך שלהלן מציג את המטא נתונים שאוחזרו מקובץ PDF באמצעות PyMuPDF:

ערוך מטא נתונים של PDF

אנו יכולים לערוך את המטא נתונים של קובצי PDF באמצעות ספריית PyMuPDF על ידי העברת מילון המכיל את השדות שאנו רוצים לשנות יחד עם הערכים החדשים שלהם לשיטת set_metadata כפי שמוצג בקטע הקוד שלהלן:

קרא מטא נתונים של XML של קובצי PDF

אנו יכולים לאחזר מטא נתונים של XML של PDF באמצעות ספריית PyMuPDF. אנו משתמשים בשיטת get_xml_metadata המחזירה את כל המטא נתונים של ה-XML כפי שמוצג בקטע הקוד שלהלן:

תְפוּקָה

צילום המסך שלהלן מציג את המטא-נתונים של XML שאוחזרו מקובץ PDF באמצעות PyMuPDF:

שנה מטא נתונים של XML של קובצי PDF

אנו יכולים להגדיר או לשנות את המטא-נתונים של ה-XML של PDF באמצעות שיטת set_xml_metadata של ספריית PyMuPDF. זה לא פשוט כמו החלפת המטא-נתונים ברמת המסמך מכיוון שset_xml_metadata יקבל כל מחרוזת ויחליף את המטא-נתונים המלאים של ה-XML במחרוזת המועברת אליו.

על מנת למנוע מחיקה לא מכוונת של כל מידע על מטא נתונים, תחילה אנו מביאים את המטא נתונים המלאים של XML כמחרוזת באמצעות get_xml_metadata ולאחר מכן משתמשים בשיטת ההחלף של המחרוזת כדי להחליף את הרצוי מידע לבסוף, אנו מעבירים את ה-XML המלא עם השדות שהשתנו לשיטת set_xml_metadata אשר משנה את כל המטא-נתונים של ה-XML של ה-PDF. בדוק את קטע הקוד למטה לפרטים:

מַסְקָנָה

לסיכום, PyMuPDF הוא כלי נהדר למשימות הקשורות למניפולציה של מטא נתונים. אנו יכולים בקלות לאחזר ולשנות את מידע המטא נתונים של קובצי PDF. עם זאת, חולשה בולטת טמונה בשיטת set_xml_metadata. שיטה זו מקבלת כל מחרוזת המועברת אליה ומחליפה איתה את ה-XML הקודם מה שעלול לגרום לאובדן לא מכוון של מידע כדי למנוע בעיה זו מפתחים נדרשים ליישם את ההיגיון שלהם כדי להבטיח שינויים נכונים במטא נתונים של XML.

מוצרים דומים

 Hebrew