PyMuPDF

 
 

مكتبة بايثون مفتوحة المصدر لإدارة البيانات الوصفية لملفات PDF

جرب PyMuPDF، مكتبة Python المجانية والمفتوحة المصدر للوصول إلى البيانات الوصفية لمستندات PDF وتعديلها.

ما هو PyMuPDF؟

PyMuPDF، والمعروفة أيضًا باسم Fitz، هي مكتبة Python مفتوحة المصدر تقدم العديد من الميزات مثل تحليل ملفات PDF، وتقسيم ودمج ملفات PDF وما إلى ذلك ولكن في هذه الصفحة سنناقش فقط كيف يمكن لمطوري Python استخدام مكتبة PyMuPDF للتعامل مع المهام المتعلقة بالبيانات التعريفية لـ PDF مثل:

  • قراءة البيانات التعريفية لملفات PDF: يدعم PyMuPDF الوصول إلى البيانات الوصفية لمستندات PDF التي تحتوي على معلومات مثل المؤلف والعنوان والموضوع وتاريخ الإنشاء وما إلى ذلك.
  • تعديل بيانات تعريف PDF: تسمح المكتبة أيضًا بتعديل البيانات التعريفية لمستندات PDF.
  • قراءة بيانات تعريف XML: تحتوي مستندات PDF أيضًا على بيانات تعريف XML والتي لا تقتصر على خصائص المستند القياسية مثل المؤلف والعنوان وما إلى ذلك، ويمكن أن تحتوي على بيانات تعريف إضافية. باستخدام PyMuPDF، يمكن للمطورين أيضًا قراءته.
  • تغيير بيانات تعريف XML: يمكن للمطورين أيضًا تغيير بيانات تعريف XML لملفات PDF باستخدام مكتبة PyMuPDF.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الشروع في العمل مع PyMuPDF

تحتاج إلى إصدار Python 3.8.0 أو أعلى لتثبيت PyMuPDF واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت PyMuPDF على جهازك باستخدام pip والبيئة الافتراضية.

لينكس


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ماك


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

شبابيك


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

قراءة البيانات الوصفية لملف PDF

يمكننا قراءة البيانات الوصفية لملف PDF باستخدام عضو البيانات الوصفية في مكتبة PyMuPDF والذي يحتوي على محتوى البيانات الوصفية الكامل للمستند. يوضح مقتطف الكود أدناه كيفية الحصول على البيانات التعريفية لملف PDF من عضو البيانات الوصفية:

انتاج

تعرض لقطة الشاشة أدناه البيانات التعريفية المستردة من ملف PDF باستخدام PyMuPDF:

تحرير البيانات الوصفية لملف PDF

يمكننا تحرير البيانات الوصفية لملفات PDF باستخدام مكتبة PyMuPDF عن طريق تمرير قاموس يحتوي على الحقول التي نريد تغييرها مع قيمها الجديدة إلى طريقة set_metadata كما هو موضح في مقتطف الكود أدناه:

قراءة بيانات تعريف XML لملفات PDF

يمكننا استرداد بيانات تعريف XML لملف PDF باستخدام مكتبة PyMuPDF. نستخدم طريقة get_xml_metadata التي تُرجع بيانات تعريف XML بالكامل كما هو موضح في مقتطف الكود أدناه:

انتاج

تعرض لقطة الشاشة أدناه بيانات تعريف XML التي تم استردادها من ملف PDF باستخدام PyMuPDF:

تغيير بيانات تعريف XML لملفات PDF

يمكننا ضبط أو تغيير بيانات تعريف XML لملف PDF باستخدام طريقة set_xml_metadata الخاصة بمكتبة PyMuPDF. إن الأمر ليس سهلاً مثل استبدال البيانات التعريفية على مستوى المستند لأن set_xml_metadata سيقبل أي سلسلة ويستبدل بيانات تعريف XML الكاملة بالسلسلة التي تم تمريرها إليها.

لتجنب الحذف غير المقصود لأي معلومات بيانات وصفية، نقوم أولاً بإحضار بيانات تعريف XML الكاملة كسلسلة باستخدام get_xml_metadata ثم نستخدم طريقة replace للسلسلة لاستبدالها المعلومات المطلوبة أخيرًا، نقوم بتمرير ملف XML الكامل مع الحقول المتغيرة إلى طريقة set_xml_metadata التي تغير بيانات تعريف XML بالكامل لملف PDF. تحقق من مقتطف الكود أدناه للحصول على التفاصيل:

خاتمة

باختصار، تعد PyMuPDF أداة رائعة للمهام المتعلقة بمعالجة البيانات الوصفية. يمكننا بسهولة استرداد وتغيير معلومات البيانات الوصفية لملفات PDF. ومع ذلك، تكمن نقطة الضعف الملحوظة في طريقة set_xml_metadata. تقبل هذه الطريقة أي سلسلة تم تمريرها إليها وتستبدل XML السابق بها مما قد يتسبب في فقدان غير مقصود للمعلومات لتجنب هذه المشكلة، يتعين على المطورين تنفيذ منطقهم لضمان التعديلات الصحيحة في بيانات تعريف XML.

منتجات مماثلة

 عربي