PyMuPDF
کتابخانه Python منبع باز برای مدیریت متادیتا PDF
PyMuPDF، کتابخانه رایگان و منبع باز Python را برای دسترسی و اصلاح فراداده اسناد PDF امتحان کنید.
PyMuPDF چیست؟
PyMuPDF، همچنین به عنوان Fitz شناخته می شود، یک کتابخانه Python منبع باز است که ویژگی های بسیاری مانند تجزیه فایل های PDF، تقسیم و ادغام PDF ها و غیره، اما در این صفحه ما فقط در مورد اینکه چگونه توسعه دهندگان Python می توانند از کتابخانه PyMuPDF برای مدیریت متادیتا PDF استفاده کنند، بحث خواهیم کرد. وظایف مرتبط مانند:
- خواندن فراداده PDF: PyMuPDF از دسترسی به ابرداده اسناد PDF حاوی اطلاعاتی مانند نویسنده، عنوان، موضوع و تاریخ ایجاد و غیره پشتیبانی میکند.
- تغییر فراداده PDF: این کتابخانه همچنین امکان تغییر ابرداده اسناد PDF را فراهم می کند.
- خواندن فراداده XML: اسناد PDF همچنین حاوی فراداده XML هستند که به ویژگیهای سند استاندارد مانند نویسنده، عنوان و غیره محدود نمیشوند و میتوانند متاداده اضافی داشته باشند. با PyMuPDF، توسعه دهندگان همچنین می توانند آن را بخوانند.
- تغییر فراداده XML: توسعه دهندگان همچنین می توانند با استفاده از کتابخانه PyMuPDF، فراداده XML فایل های PDF را تغییر دهند.
شروع کار با PyMuPDF
برای نصب و استفاده از PyMuPDF به نسخه 3.8.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب PyMuPDF بر روی دستگاه خود با استفاده از pip و محیط مجازی.
لینوکس
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
ویندوز
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
فراداده PDF را بخوانید
ما میتوانیم فراداده یک PDF را با استفاده از عضو متادیتا کتابخانه PyMuPDF که حاوی محتوای فراداده کامل سند است، بخوانیم. قطعه کد زیر نحوه دریافت فراداده یک PDF را از عضو متادیتا نشان می دهد:
خروجی
تصویر زیر متادیتای بازیابی شده از یک PDF را با استفاده از PyMuPDF نشان می دهد:
ویرایش متادیتا PDF
ما میتوانیم ابردادههای PDF را با استفاده از کتابخانه PyMuPDF با ارسال فرهنگ لغت حاوی فیلدهایی که میخواهیم تغییر دهیم به همراه مقادیر جدیدشان به روش set_metadata ویرایش کنیم، همانطور که در قطعه کد زیر نشان داده شده است:
فراداده های XML فایل های PDF را بخوانید
ما می توانیم فراداده XML یک PDF را با استفاده از کتابخانه PyMuPDF بازیابی کنیم. ما از روش get_xml_metadata استفاده می کنیم که کل فراداده XML را همانطور که در قطعه کد زیر نشان داده شده است برمی گرداند:
خروجی
تصویر زیر متادیتای XML را نشان می دهد که از یک PDF با استفاده از PyMuPDF بازیابی شده است:
متادیتای XML فایلهای PDF را تغییر دهید
ما می توانیم با استفاده از روش set_xml_metadata کتابخانه PyMuPDF، فراداده XML یک PDF را تنظیم یا تغییر دهیم. به سادگی جایگزین کردن ابرداده در سطح سند نیست زیرا set_xml_metadata هر رشته ای را می پذیرد و ابرداده کامل XML را با رشته ای که به آن ارسال می شود جایگزین می کند.
به منظور جلوگیری از حذف ناخواسته هرگونه اطلاعات فراداده، ابتدا فراداده کامل XML را با استفاده از get_xml_metadata واکشی می کنیم و سپس از روش replace برای جایگزینی رشته مورد نظر استفاده می کنیم. اطلاعات در نهایت، ما XML کامل را با فیلدهای تغییر یافته به روش set_xml_metadata منتقل می کنیم که کل فراداده XML PDF را تغییر می دهد. برای جزئیات، قطعه کد زیر را بررسی کنید:
نتیجه گیری
به طور خلاصه، PyMuPDF یک ابزار عالی برای کارهای مربوط به دستکاری ابرداده است. ما به راحتی می توانیم اطلاعات فراداده فایل های PDF را بازیابی و تغییر دهیم. با این حال، یک ضعف قابل توجه در روش set_xml_metadata نهفته است. این روش هر رشته ای را می پذیرد که به آن ارسال شود و XML قبلی را با آن بازنویسی می کند که ممکن است باعث از دست رفتن ناخواسته اطلاعات شود تا از این مشکل جلوگیری شود، توسعه دهندگان باید منطق خود را پیاده سازی کنند تا از اصلاحات صحیح در فراداده XML اطمینان حاصل کنند.