PyMuPDF

کتابخانه Python منبع باز برای مدیریت متادیتا PDF

PyMuPDF، کتابخانه رایگان و منبع باز Python را برای دسترسی و اصلاح فراداده اسناد PDF امتحان کنید.

PyMuPDF چیست؟

PyMuPDF، همچنین به عنوان Fitz شناخته می شود، یک کتابخانه Python منبع باز است که ویژگی های بسیاری مانند تجزیه فایل های PDF، تقسیم و ادغام PDF ها و غیره، اما در این صفحه ما فقط در مورد اینکه چگونه توسعه دهندگان Python می توانند از کتابخانه PyMuPDF برای مدیریت متادیتا PDF استفاده کنند، بحث خواهیم کرد. وظایف مرتبط مانند:

خواندن فراداده PDF: PyMuPDF از دسترسی به ابرداده اسناد PDF حاوی اطلاعاتی مانند نویسنده، عنوان، موضوع و تاریخ ایجاد و غیره پشتیبانی می‌کند.
تغییر فراداده PDF: این کتابخانه همچنین امکان تغییر ابرداده اسناد PDF را فراهم می کند.
خواندن فراداده XML: اسناد PDF همچنین حاوی فراداده XML هستند که به ویژگی‌های سند استاندارد مانند نویسنده، عنوان و غیره محدود نمی‌شوند و می‌توانند متاداده اضافی داشته باشند. با PyMuPDF، توسعه دهندگان همچنین می توانند آن را بخوانند.
تغییر فراداده XML: توسعه دهندگان همچنین می توانند با استفاده از کتابخانه PyMuPDF، فراداده XML فایل های PDF را تغییر دهند.

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با PyMuPDF

برای نصب و استفاده از PyMuPDF به نسخه 3.8.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب PyMuPDF بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ویندوز


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

ما می توانیم با استفاده از روش set_xml_metadata کتابخانه PyMuPDF، فراداده XML یک PDF را تنظیم یا تغییر دهیم. به سادگی جایگزین کردن ابرداده در سطح سند نیست زیرا set_xml_metadata هر رشته ای را می پذیرد و ابرداده کامل XML را با رشته ای که به آن ارسال می شود جایگزین می کند.

به منظور جلوگیری از حذف ناخواسته هرگونه اطلاعات فراداده، ابتدا فراداده کامل XML را با استفاده از get_xml_metadata واکشی می کنیم و سپس از روش replace برای جایگزینی رشته مورد نظر استفاده می کنیم. اطلاعات در نهایت، ما XML کامل را با فیلدهای تغییر یافته به روش set_xml_metadata منتقل می کنیم که کل فراداده XML PDF را تغییر می دهد. برای جزئیات، قطعه کد زیر را بررسی کنید:

نتیجه گیری

به طور خلاصه، PyMuPDF یک ابزار عالی برای کارهای مربوط به دستکاری ابرداده است. ما به راحتی می توانیم اطلاعات فراداده فایل های PDF را بازیابی و تغییر دهیم. با این حال، یک ضعف قابل توجه در روش set_xml_metadata نهفته است. این روش هر رشته ای را می پذیرد که به آن ارسال شود و XML قبلی را با آن بازنویسی می کند که ممکن است باعث از دست رفتن ناخواسته اطلاعات شود تا از این مشکل جلوگیری شود، توسعه دهندگان باید منطق خود را پیاده سازی کنند تا از اصلاحات صحیح در فراداده XML اطمینان حاصل کنند.

PyMuPDF

کتابخانه Python منبع باز برای مدیریت متادیتا PDF

PyMuPDF، کتابخانه رایگان و منبع باز Python را برای دسترسی و اصلاح فراداده اسناد PDF امتحان کنید.

PyMuPDF چیست؟

آمار GitHub

شروع کار با PyMuPDF

لینوکس

MacOS

ویندوز

فراداده PDF را بخوانید

خروجی

ویرایش متادیتا PDF

فراداده های XML فایل های PDF را بخوانید

خروجی

متادیتای XML فایلهای PDF را تغییر دهید

نتیجه گیری

محصولات مشابه