ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি

পিডিএফ ডকুমেন্টগুলি থেকে পাঠ্য, চিত্র, টেবিল এবং অন্যান্য বিষয়বস্তু পার্স করতে, পড়তে এবং বের করতে এই বিনামূল্যের ও খোলা উৎস পাইথন লাইব্রেরিটি ব্যবহার করে দেখুন।

PyMuPDF কি?

PyMuPDF, ফিটজ নামেও পরিচিত, একটি ওপেন-সোর্স পাইথন লাইব্রেরি যা পিডিএফ ফাইলগুলির সাথে কাজ করার জন্য একটি বিস্তৃত সরঞ্জাম সরবরাহ করে। PyMuPDF এর সাথে, ব্যবহারকারীরা দক্ষতার সাথে কাজগুলি সম্পাদন করতে পারে যেমন PDF খোলা, পাঠ্য, চিত্র এবং টেবিল বের করা, পৃষ্ঠার বৈশিষ্ট্যগুলি যেমন ঘূর্ণন এবং ক্রপ করা, নতুন PDF নথি তৈরি করা এবং PDF পৃষ্ঠাগুলিকে ছবিতে রূপান্তর করা।

PyMuPDF নীচে তালিকাভুক্ত কয়েকটি বৈশিষ্ট্য সমর্থন করে:

PDF ডকুমেন্ট রিডিং: PyMuPDF পিডিএফ ডকুমেন্ট খুলতে এবং পড়তে পারে, আপনাকে সেগুলির মধ্যে টেক্সট, ছবি এবং অন্যান্য বিষয়বস্তু অ্যাক্সেস করতে দেয়।
পাঠ্য নিষ্কাশন: আপনি পাঠ্য বিষয়বস্তু, ফন্ট এবং লেআউট তথ্য সহ PDF নথি থেকে পাঠ্য বের করতে পারেন।
ইমেজ এক্সট্রাকশন: আপনি JPEG বা PNG এর মতো বিভিন্ন ফরম্যাটে PDF ডকুমেন্ট থেকে ছবি বের করতে পারেন।
টেবিল নিষ্কাশন: আপনি PDF নথি থেকেও টেবিল বের করতে পারেন।

এই পর্যালোচনাতে, আমাদের প্রাথমিক ফোকাস লাইব্রেরির নিষ্কাশন এবং পার্সিং বৈশিষ্ট্যগুলির উপর থাকবে। বিভাজন, একত্রীকরণ এবং পৃষ্ঠা পরিচালনার বৈশিষ্ট্যগুলির গভীরভাবে মূল্যায়নের জন্য, অনুগ্রহ করে এখানে ক্লিক করুন৷

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

PyMuPDF দিয়ে শুরু করা

PyMuPDF ইনস্টল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.8.0 বা উচ্চতর প্রয়োজন। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপরে পিপ এবং ভার্চুয়াল পরিবেশ a>

লিনাক্স


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ম্যাক অপারেটিং সিস্টেম


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

উইন্ডোজ


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

PDF থেকে টেক্সট বের করুন

আপনি একটি পিডিএফ ডকুমেন্ট থেকে পাঠ্য বের করতে এবং পাঠ্য বিশ্লেষণ করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারেন, যেমন লাইব্রেরিতে দেওয়া ফাংশনগুলি ব্যবহার করে, নীচের কোডে দেখানো হয়েছে:

আউটপুট

নীচের ছবিটি PDF ফাইলে নিষ্কাশিত পাঠ্য এবং শব্দের সংখ্যা দেখায়:

পিডিএফ থেকে ছবি এক্সট্রাক্ট করুন

আমরা পাইথনে পিডিএফ ডকুমেন্ট থেকে ছবি বের করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারি। নীচের কোড স্নিপেট নির্দিষ্ট পিডিএফ ফাইলটি খোলে, পিডিএফ থেকে চিত্রগুলি বের করে এবং বর্তমান কার্যকারী ডিরেক্টরিতে সেভ করে:

আউটপুট

পিডিএফ ডকুমেন্ট থেকে নেওয়া পিএনজি ইমেজটি নিচে দেওয়া হল

পিডিএফ থেকে টেবিল বের করুন

আমরা পিডিএফ ডকুমেন্ট প্রসেস করতে এবং তা থেকে টেবিল বের করতে PyMuPDF লাইব্রেরি ব্যবহার করতে পারি। নীচের কোড স্নিপেটটি দেখুন যা নির্দিষ্ট পিডিএফ ফাইল খোলে এবং পিডিএফ ডকুমেন্ট থেকে টেবিল বের করে:

আউটপুট

নীচের স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে নেওয়া টেবিলটি দেখায়:

PDF এ পাঠ্য সন্নিবেশ করান

নীচে পাইথন কোড স্নিপেট একটি PDF ফাইলে পাঠ্য সন্নিবেশ করার জন্য এবং পরিবর্তিত PDFটিকে text.pdf হিসাবে সংরক্ষণ করার জন্য PyMuPDF লাইব্রেরির ব্যবহার প্রদর্শন করে:

আউটপুট

উপরের কোডটি ব্যবহার করে সন্নিবেশিত পাঠ্যটি নীচে দেওয়া লাল বাক্সে হাইলাইট করা হয়েছে:

PyMuPDF এর সাথে OCR ব্যবহার করে PDF টেক্সট রিকগনিশন

We will perform OCR on the PDF file containing the following image:

আউটপুট

নীচের ছবিটি প্রদত্ত পিডিএফ ফাইলে উপস্থিত চিত্র থেকে প্রাপ্ত পাঠ্য দেখায়:

উপসংহার

সংক্ষেপে, PyMuPDF কিছু স্পষ্ট শক্তি এবং দুর্বলতা সহ একটি পেশাদার সরঞ্জাম। এটি OCR এবং পাঠ্য নিষ্কাশনের মতো কাজের জন্য দুর্দান্ত যা এটিকে PDF এ পাঠ্য পরিচালনার জন্য মূল্যবান করে তোলে।

যাইহোক, পিডিএফ থেকে টেবিল বের করার ক্ষেত্রে এটি এতটা ভালো নয় বিশেষ করে যখন পিডিএফ-এর জটিল গঠন বা বেশি সংখ্যক পৃষ্ঠা থাকে, যা কিছু ব্যবহারকারীর জন্য একটি ত্রুটি হতে পারে। এছাড়াও, এটির ব্যবহারে জটিলতা যোগ করে, নির্দিষ্ট পরিস্থিতিতে পান্ডাস এবং টেসার্যাক্ট ওসিআর ভাষার ডেটা ফাইলের মতো অতিরিক্ত লাইব্রেরির প্রয়োজন হতে পারে। এই সীমাবদ্ধতা সত্ত্বেও, PyMuPDF পিডিএফ-এ পাঠ্যের সাথে কাজ করার জন্য একটি শক্তিশালী পছন্দ হিসাবে রয়ে গেছে।

ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি

PyMuPDF কি?

GitHub Stats

PyMuPDF দিয়ে শুরু করা

লিনাক্স

ম্যাক অপারেটিং সিস্টেম

উইন্ডোজ

PDF থেকে টেক্সট বের করুন

আউটপুট

পিডিএফ থেকে ছবি এক্সট্রাক্ট করুন

আউটপুট

পিডিএফ থেকে টেবিল বের করুন

আউটপুট

PDF এ পাঠ্য সন্নিবেশ করান

আউটপুট

PyMuPDF এর সাথে OCR ব্যবহার করে PDF টেক্সট রিকগনিশন

আউটপুট

উপসংহার

Similar Products