ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি
পিডিএফ পার্স করুন এবং বিনামূল্যে পাইথন লাইব্রেরি ব্যবহার করে PDF নথি থেকে পাঠ্য, ছবি এবং সংযুক্তিগুলি বের করুন।
পিপিডিএফ কি?
Pypdf হল একটি মূল্যবান ওপেন সোর্স পাইথন লাইব্রেরি যা বিভিন্ন PDF অপারেশনে দক্ষতার জন্য পরিচিত। এই লাইব্রেরিটি PDF ফাইলের সাথে সম্পর্কিত অনেক কাজ এবং অপারেশন পরিচালনা করতে পারে, তবে আমরা এই পৃষ্ঠায় শুধুমাত্র এর PDF পার্সিং বৈশিষ্ট্যগুলিতে ফোকাস করব।
pypdf এর উল্লেখযোগ্য পার্সিং বৈশিষ্ট্যগুলির মধ্যে রয়েছে:
- পিডিএফ ফাইল পড়া: Pypdf আপনাকে PDF ফাইলগুলি খুলতে এবং পড়তে/পার্স করতে দেয়, যা বিদ্যমান PDF নথি থেকে পাঠ্য এবং অন্যান্য ডেটা বের করা সহজ করে তোলে।
- কন্টেন্ট এক্সট্রাকশন: আপনি আপনার প্রয়োজন অনুযায়ী PDF ডকুমেন্ট থেকে টেক্সট, ছবি এবং অ্যাটাচমেন্ট পার্স এবং এক্সট্রাক্ট করতে পারেন।
pypdf দিয়ে শুরু করা
pypdf ইন্সটল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.6.0 বা উচ্চতর দরকার। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপর পিপ এবং ভার্চুয়াল পরিবেশ a>
লিনাক্স
python3 -m venv venv
source venv/bin/activate
pip install pypdf
ম্যাক অপারেটিং সিস্টেম
python -m venv venv
source venv/bin/activate
pip install pypdf
উইন্ডোজ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
PDF থেকে টেক্সট বের করুন
Please check below code snippet for example:আউটপুট
নীচের ছবিটি PDF ফাইল থেকে নিষ্কাশিত পাঠ্য দেখায়
পিডিএফ থেকে ছবি এক্সট্রাক্ট করুন
আমরা পিডিএফ ডকুমেন্ট থেকে ছবি বের করতে pypdf লাইব্রেরি ব্যবহার করতে পারি। ছবি তোলার জন্য বালিশ নামে একটি অতিরিক্ত লাইব্রেরি প্রয়োজন৷ এটি প্রতিটি পৃষ্ঠার মাধ্যমে পুনরাবৃত্তি করে, চিত্রগুলি সনাক্ত করে এবং তাদের আসল নামগুলি সংরক্ষণ করে পৃথক চিত্র ফাইল হিসাবে সংরক্ষণ করে। উদাহরণস্বরূপ নীচের কোড স্নিপেট চেক করুন:
আউটপুট
উপরের কোডটি ব্যবহার করে সন্নিবেশিত পাঠ্যটি নীচে দেওয়া লাল বাক্সে হাইলাইট করা হয়েছে
পিডিএফ থেকে সংযুক্তি বের করুন
pypdf লাইব্রেরি পিডিএফ ডকুমেন্ট থেকে অ্যাটাচমেন্ট বের করে সংরক্ষণ করতে দেয়। এটি সংযুক্তি এবং তাদের বিষয়বস্তুর মাধ্যমে পুনরাবৃত্তি করে এবং আলাদা ফাইলগুলিতে সংরক্ষণ করে। উদাহরণস্বরূপ নীচের কোড স্নিপেট চেক করুন:
উপসংহার
উপসংহারে, পিডিএফ ডকুমেন্টগুলি থেকে বৈশিষ্ট্যগুলি বের করার জন্য pypdf একটি বহুমুখী পাইথন লাইব্রেরি হিসাবে দাঁড়িয়েছে। এটি পাঠ্য, চিত্র এবং সংযুক্তি পার্স করার জন্য শক্তিশালী ক্ষমতা সরবরাহ করে, এটি ডেটা নিষ্কাশন, বিশ্লেষণ এবং নথি পরিচালনার জন্য একটি মূল্যবান হাতিয়ার করে তোলে।
যাইহোক, এটা মনে রাখা গুরুত্বপূর্ণ যে pypdf টেক্সট বের করার সময় মাঝে মাঝে সমস্যা দেখাতে পারে, যেমন শব্দ এবং অক্ষরের মধ্যে অতিরিক্ত স্পেস, যা এক্সট্র্যাক্ট করা বিষয়বস্তুর নির্ভুলতাকে প্রভাবিত করতে পারে। এই সীমাবদ্ধতা সত্ত্বেও, পিডিএফ ফাইল পার্স করার জন্য pypdf একটি মূল্যবান সম্পদ, বিশেষ করে এমন পরিস্থিতিতে যেখানে পাঠ্যের সুনির্দিষ্ট বিন্যাস প্রাথমিক উদ্বেগের বিষয় নয়।