ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি
পিডিএফ ডকুমেন্টগুলি থেকে পাঠ্য, চিত্র, টেবিল এবং অন্যান্য বিষয়বস্তু পার্স করতে, পড়তে এবং বের করতে এই বিনামূল্যের ও খোলা উৎস পাইথন লাইব্রেরিটি ব্যবহার করে দেখুন।
PyMuPDF কি?
PyMuPDF, ফিটজ নামেও পরিচিত, একটি ওপেন-সোর্স পাইথন লাইব্রেরি যা পিডিএফ ফাইলগুলির সাথে কাজ করার জন্য একটি বিস্তৃত সরঞ্জাম সরবরাহ করে। PyMuPDF এর সাথে, ব্যবহারকারীরা দক্ষতার সাথে কাজগুলি সম্পাদন করতে পারে যেমন PDF খোলা, পাঠ্য, চিত্র এবং টেবিল বের করা, পৃষ্ঠার বৈশিষ্ট্যগুলি যেমন ঘূর্ণন এবং ক্রপ করা, নতুন PDF নথি তৈরি করা এবং PDF পৃষ্ঠাগুলিকে ছবিতে রূপান্তর করা।
PyMuPDF নীচে তালিকাভুক্ত কয়েকটি বৈশিষ্ট্য সমর্থন করে:
- PDF ডকুমেন্ট রিডিং: PyMuPDF পিডিএফ ডকুমেন্ট খুলতে এবং পড়তে পারে, আপনাকে সেগুলির মধ্যে টেক্সট, ছবি এবং অন্যান্য বিষয়বস্তু অ্যাক্সেস করতে দেয়।
- পাঠ্য নিষ্কাশন: আপনি পাঠ্য বিষয়বস্তু, ফন্ট এবং লেআউট তথ্য সহ PDF নথি থেকে পাঠ্য বের করতে পারেন।
- ইমেজ এক্সট্রাকশন: আপনি JPEG বা PNG এর মতো বিভিন্ন ফরম্যাটে PDF ডকুমেন্ট থেকে ছবি বের করতে পারেন।
- টেবিল নিষ্কাশন: আপনি PDF নথি থেকেও টেবিল বের করতে পারেন।
এই পর্যালোচনাতে, আমাদের প্রাথমিক ফোকাস লাইব্রেরির নিষ্কাশন এবং পার্সিং বৈশিষ্ট্যগুলির উপর থাকবে। বিভাজন, একত্রীকরণ এবং পৃষ্ঠা পরিচালনার বৈশিষ্ট্যগুলির গভীরভাবে মূল্যায়নের জন্য, অনুগ্রহ করে এখানে ক্লিক করুন৷
PyMuPDF দিয়ে শুরু করা
PyMuPDF ইনস্টল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.8.0 বা উচ্চতর প্রয়োজন। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপরে পিপ এবং ভার্চুয়াল পরিবেশ a>
লিনাক্স
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
ম্যাক অপারেটিং সিস্টেম
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
উইন্ডোজ
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
PDF থেকে টেক্সট বের করুন
আপনি একটি পিডিএফ ডকুমেন্ট থেকে পাঠ্য বের করতে এবং পাঠ্য বিশ্লেষণ করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারেন, যেমন লাইব্রেরিতে দেওয়া ফাংশনগুলি ব্যবহার করে, নীচের কোডে দেখানো হয়েছে:
আউটপুট
নীচের ছবিটি PDF ফাইলে নিষ্কাশিত পাঠ্য এবং শব্দের সংখ্যা দেখায়:
পিডিএফ থেকে ছবি এক্সট্রাক্ট করুন
আমরা পাইথনে পিডিএফ ডকুমেন্ট থেকে ছবি বের করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারি। নীচের কোড স্নিপেট নির্দিষ্ট পিডিএফ ফাইলটি খোলে, পিডিএফ থেকে চিত্রগুলি বের করে এবং বর্তমান কার্যকারী ডিরেক্টরিতে সেভ করে:
আউটপুট
পিডিএফ ডকুমেন্ট থেকে নেওয়া পিএনজি ইমেজটি নিচে দেওয়া হল
পিডিএফ থেকে টেবিল বের করুন
আমরা পিডিএফ ডকুমেন্ট প্রসেস করতে এবং তা থেকে টেবিল বের করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারি। নীচের কোড স্নিপেটটি দেখুন যা নির্দিষ্ট পিডিএফ ফাইল খোলে এবং পিডিএফ ডকুমেন্ট থেকে টেবিল বের করে:
আউটপুট
নীচের স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে নেওয়া টেবিলটি দেখায়:
PDF এ পাঠ্য সন্নিবেশ করান
নীচে পাইথন কোড স্নিপেট একটি PDF ফাইলে পাঠ্য সন্নিবেশ করার জন্য এবং পরিবর্তিত PDFটিকে text.pdf হিসাবে সংরক্ষণ করার জন্য PyMuPDF লাইব্রেরির ব্যবহার প্রদর্শন করে:
আউটপুট
উপরের কোডটি ব্যবহার করে সন্নিবেশিত পাঠ্যটি নীচে দেওয়া লাল বাক্সে হাইলাইট করা হয়েছে:
PyMuPDF এর সাথে OCR ব্যবহার করে PDF টেক্সট রিকগনিশন
We will perform OCR on the PDF file containing the following image:আউটপুট
নীচের ছবিটি প্রদত্ত পিডিএফ ফাইলে উপস্থিত চিত্র থেকে প্রাপ্ত পাঠ্য দেখায়:
উপসংহার
সংক্ষেপে, PyMuPDF কিছু স্পষ্ট শক্তি এবং দুর্বলতা সহ একটি পেশাদার সরঞ্জাম। এটি OCR এবং পাঠ্য নিষ্কাশনের মতো কাজের জন্য দুর্দান্ত যা এটিকে PDF এ পাঠ্য পরিচালনার জন্য মূল্যবান করে তোলে।
যাইহোক, পিডিএফ থেকে টেবিল বের করার ক্ষেত্রে এটি এতটা ভালো নয় বিশেষ করে যখন পিডিএফ-এর জটিল গঠন বা বেশি সংখ্যক পৃষ্ঠা থাকে, যা কিছু ব্যবহারকারীর জন্য একটি ত্রুটি হতে পারে। এছাড়াও, এটির ব্যবহারে জটিলতা যোগ করে, নির্দিষ্ট পরিস্থিতিতে পান্ডাস এবং টেসার্যাক্ট ওসিআর ভাষার ডেটা ফাইলের মতো অতিরিক্ত লাইব্রেরির প্রয়োজন হতে পারে। এই সীমাবদ্ধতা সত্ত্বেও, PyMuPDF পিডিএফ-এ পাঠ্যের সাথে কাজ করার জন্য একটি শক্তিশালী পছন্দ হিসাবে রয়ে গেছে।