PyMuPDF
পিডিএফ মেটাডেটা পরিচালনা করতে ওপেন সোর্স পাইথন লাইব্রেরি
পিডিএফ ডকুমেন্টের মেটাডেটা অ্যাক্সেস এবং পরিবর্তন করতে PyMuPDF, ফ্রি এবং ওপেন সোর্স পাইথন লাইব্রেরি ব্যবহার করে দেখুন।
PyMuPDF কি?
PyMuPDF, ফিটজ নামেও পরিচিত, একটি ওপেন সোর্স পাইথন লাইব্রেরি যা পিডিএফ পার্সিং, পিডিএফগুলিকে বিভক্ত করা এবং একত্রিত করা ইত্যাদি কিন্তু এই পৃষ্ঠায় আমরা কেবল আলোচনা করব যে কীভাবে পাইথন বিকাশকারীরা পিডিএফ মেটাডেটা সম্পর্কিত কাজগুলি পরিচালনা করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারে যেমন:
- পিডিএফ মেটাডেটা পড়ুন: PyMuPDF লেখক, শিরোনাম, বিষয় এবং তৈরির তারিখ ইত্যাদির মতো তথ্য ধারণকারী PDF নথিগুলির মেটাডেটা অ্যাক্সেস করতে সমর্থন করে।
- PDF মেটাডেটা পরিবর্তন করুন: লাইব্রেরি PDF নথির মেটাডেটা পরিবর্তন করার অনুমতি দেয়।
- XML মেটাডেটা পড়ুন: PDF নথিতে XML মেটাডেটাও থাকে যা লেখক, শিরোনাম ইত্যাদির মতো স্ট্যান্ডার্ড নথির বৈশিষ্ট্যের মধ্যে সীমাবদ্ধ নয় এবং অতিরিক্ত মেটাডেটা থাকতে পারে। PyMuPDF এর সাথে, বিকাশকারীরাও এটি পড়তে পারে।
- XML মেটাডেটা পরিবর্তন করুন: বিকাশকারীরা PyMuPDF লাইব্রেরি ব্যবহার করে PDF-এর XML মেটাডেটাও পরিবর্তন করতে পারেন।
PyMuPDF দিয়ে শুরু করা
PyMuPDF ইনস্টল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.8.0 বা উচ্চতর প্রয়োজন। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপরে পিপ এবং ভার্চুয়াল পরিবেশ a>
লিনাক্স
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
ম্যাক অপারেটিং সিস্টেম
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
উইন্ডোজ
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
পিডিএফ মেটাডেটা পড়ুন
আমরা PyMuPDF লাইব্রেরির মেটাডেটা সদস্য ব্যবহার করে একটি PDF এর মেটাডেটা পড়তে পারি যাতে নথির সম্পূর্ণ মেটাডেটা সামগ্রী রয়েছে। নিচের কোড স্নিপেটটি দেখায় কিভাবে মেটাডেটা সদস্যের কাছ থেকে PDF এর মেটাডেটা পেতে হয়:
আউটপুট
নীচের স্ক্রিনশটটি PyMuPDF ব্যবহার করে পিডিএফ থেকে পুনরুদ্ধার করা মেটাডেটা দেখায়:
PDF মেটাডেটা সম্পাদনা করুন
আমরা PyMuPDF লাইব্রেরি ব্যবহার করে PDF এর মেটাডেটা সম্পাদনা করতে পারি একটি অভিধান পাস করে যে ক্ষেত্রগুলিকে আমরা তাদের নতুন মানগুলির সাথে পরিবর্তন করতে চাই তা set_metadata পদ্ধতিতে নীচের কোড স্নিপেটে দেখানো হয়েছে:
PDF এর XML মেটাডেটা পড়ুন
আমরা PyMuPDF লাইব্রেরি ব্যবহার করে একটি PDF এর XML মেটাডেটা পুনরুদ্ধার করতে পারি। আমরা get_xml_metadata পদ্ধতিটি ব্যবহার করি যা নীচের কোড স্নিপেটে দেখানো হিসাবে সমগ্র XML মেটাডেটা প্রদান করে:
আউটপুট
নীচের স্ক্রিনশটটি PyMuPDF ব্যবহার করে একটি PDF থেকে পুনরুদ্ধার করা XML মেটাডেটা দেখায়:
PDF এর XML মেটাডেটা পরিবর্তন করুন
আমরা PyMuPDF লাইব্রেরির set_xml_metadata পদ্ধতি ব্যবহার করে PDF এর XML মেটাডেটা সেট বা পরিবর্তন করতে পারি। এটি নথি-স্তরের মেটাডেটা প্রতিস্থাপনের মতো সহজবোধ্য নয় কারণ set_xml_metadata যেকোনো স্ট্রিং গ্রহণ করবে এবং সম্পূর্ণ XML মেটাডেটা এতে পাস করা স্ট্রিং দিয়ে প্রতিস্থাপন করবে।
কোনো মেটাডেটা তথ্যের অনিচ্ছাকৃত মুছে ফেলা এড়াতে, আমরা প্রথমে get_xml_metadata ব্যবহার করে একটি স্ট্রিং হিসাবে সম্পূর্ণ XML মেটাডেটা নিয়ে আসি এবং তারপর পছন্দসইটি প্রতিস্থাপন করতে স্ট্রিংয়ের প্রতিস্থাপন পদ্ধতি ব্যবহার করি তথ্য অবশেষে, আমরা পরিবর্তিত ক্ষেত্র সহ সম্পূর্ণ XML set_xml_metadata পদ্ধতিতে পাস করি যা PDF-এর সম্পূর্ণ XML মেটাডেটা পরিবর্তন করে। বিস্তারিত জানার জন্য নিচের কোড স্নিপেট দেখুন:
উপসংহার
সংক্ষেপে, PyMuPDF মেটাডেটা ম্যানিপুলেশন সম্পর্কিত কাজের জন্য একটি দুর্দান্ত সরঞ্জাম। আমরা সহজেই PDF এর মেটাডেটা তথ্য পুনরুদ্ধার এবং পরিবর্তন করতে পারি। যাইহোক, একটি উল্লেখযোগ্য দুর্বলতা set_xml_metadata পদ্ধতিতে রয়েছে। এই পদ্ধতিটি এটিতে পাস করা যেকোনো স্ট্রিং গ্রহণ করে এবং এটির সাথে পূর্ববর্তী XML-কে ওভাররাইট করে যা অনিচ্ছাকৃতভাবে তথ্যের ক্ষতির কারণ হতে পারে এই সমস্যাটি এড়াতে বিকাশকারীদের XML মেটাডেটাতে সঠিক পরিবর্তনগুলি নিশ্চিত করার জন্য তাদের যুক্তি প্রয়োগ করতে হবে।