PyMuPDF

 
 

کتابخانه Python منبع باز برای مدیریت متادیتا PDF

PyMuPDF، کتابخانه رایگان و منبع باز Python را برای دسترسی و اصلاح فراداده اسناد PDF امتحان کنید.

PyMuPDF چیست؟

PyMuPDF، همچنین به عنوان Fitz شناخته می شود، یک کتابخانه Python منبع باز است که ویژگی های بسیاری مانند تجزیه فایل های PDF، تقسیم و ادغام PDF ها و غیره، اما در این صفحه ما فقط در مورد اینکه چگونه توسعه دهندگان Python می توانند از کتابخانه PyMuPDF برای مدیریت متادیتا PDF استفاده کنند، بحث خواهیم کرد. وظایف مرتبط مانند:

  • خواندن فراداده PDF: PyMuPDF از دسترسی به ابرداده اسناد PDF حاوی اطلاعاتی مانند نویسنده، عنوان، موضوع و تاریخ ایجاد و غیره پشتیبانی می‌کند.
  • تغییر فراداده PDF: این کتابخانه همچنین امکان تغییر ابرداده اسناد PDF را فراهم می کند.
  • خواندن فراداده XML: اسناد PDF همچنین حاوی فراداده XML هستند که به ویژگی‌های سند استاندارد مانند نویسنده، عنوان و غیره محدود نمی‌شوند و می‌توانند متاداده اضافی داشته باشند. با PyMuPDF، توسعه دهندگان همچنین می توانند آن را بخوانند.
  • تغییر فراداده XML: توسعه دهندگان همچنین می توانند با استفاده از کتابخانه PyMuPDF، فراداده XML فایل های PDF را تغییر دهند.
GitHub

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با PyMuPDF

برای نصب و استفاده از PyMuPDF به نسخه 3.8.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب PyMuPDF بر روی دستگاه خود با استفاده از pip و محیط مجازی.

فراداده PDF را بخوانید

ما می‌توانیم فراداده یک PDF را با استفاده از عضو متادیتا کتابخانه PyMuPDF که حاوی محتوای فراداده کامل سند است، بخوانیم. قطعه کد زیر نحوه دریافت فراداده یک PDF را از عضو متادیتا نشان می دهد:

خروجی

تصویر زیر متادیتای بازیابی شده از یک PDF را با استفاده از PyMuPDF نشان می دهد:

ویرایش متادیتا PDF

ما می‌توانیم ابرداده‌های PDF را با استفاده از کتابخانه PyMuPDF با ارسال فرهنگ لغت حاوی فیلدهایی که می‌خواهیم تغییر دهیم به همراه مقادیر جدیدشان به روش set_metadata ویرایش کنیم، همانطور که در قطعه کد زیر نشان داده شده است:

فراداده های XML فایل های PDF را بخوانید

ما می توانیم فراداده XML یک PDF را با استفاده از کتابخانه PyMuPDF بازیابی کنیم. ما از روش get_xml_metadata استفاده می کنیم که کل فراداده XML را همانطور که در قطعه کد زیر نشان داده شده است برمی گرداند:

خروجی

تصویر زیر متادیتای XML را نشان می دهد که از یک PDF با استفاده از PyMuPDF بازیابی شده است:

متادیتای XML فایلهای PDF را تغییر دهید

ما می توانیم با استفاده از روش set_xml_metadata کتابخانه PyMuPDF، فراداده XML یک PDF را تنظیم یا تغییر دهیم. به سادگی جایگزین کردن ابرداده در سطح سند نیست زیرا set_xml_metadata هر رشته ای را می پذیرد و ابرداده کامل XML را با رشته ای که به آن ارسال می شود جایگزین می کند.

به منظور جلوگیری از حذف ناخواسته هرگونه اطلاعات فراداده، ابتدا فراداده کامل XML را با استفاده از get_xml_metadata واکشی می کنیم و سپس از روش replace برای جایگزینی رشته مورد نظر استفاده می کنیم. اطلاعات در نهایت، ما XML کامل را با فیلدهای تغییر یافته به روش set_xml_metadata منتقل می کنیم که کل فراداده XML PDF را تغییر می دهد. برای جزئیات، قطعه کد زیر را بررسی کنید:

نتیجه گیری

به طور خلاصه، PyMuPDF یک ابزار عالی برای کارهای مربوط به دستکاری ابرداده است. ما به راحتی می توانیم اطلاعات فراداده فایل های PDF را بازیابی و تغییر دهیم. با این حال، یک ضعف قابل توجه در روش set_xml_metadata نهفته است. این روش هر رشته ای را می پذیرد که به آن ارسال شود و XML قبلی را با آن بازنویسی می کند که ممکن است باعث از دست رفتن ناخواسته اطلاعات شود تا از این مشکل جلوگیری شود، توسعه دهندگان باید منطق خود را پیاده سازی کنند تا از اصلاحات صحیح در فراداده XML اطمینان حاصل کنند.

محصولات مشابه

 فارسی