ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি
পিডিএফ পার্স করার জন্য ফ্রি এবং ওপেন সোর্স পাইথন লাইব্রেরি এবং ফরম্যাটিং তথ্য সহ টেক্সট এক্সট্রাক্ট করুন।
pdfminer.six কি?
Pdfminer.six হল একটি ওপেন সোর্স পাইথন লাইব্রেরি এবং পিডিএফ ডকুমেন্ট থেকে ডেটা বের করার টুলসেট। আপনি PDF নথি পার্স করতে পারেন এবং ডেটা বিশ্লেষণের জন্য PDF থেকে পাঠ্য, বিষয়বস্তুর সারণী এবং ট্যাগ করা বিষয়বস্তু ইত্যাদি বের করতে পারেন।
এখানে এর পার্সিং বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত তালিকা রয়েছে:
- টেক্সট এক্সট্রাকশন: লেআউট এবং ফর্ম্যাটিং তথ্য যেমন টেক্সট কালার, ফন্ট এবং লোকেশন ইত্যাদি সহ PDF ডকুমেন্ট থেকে টেক্সট কন্টেন্ট বের করুন।
- ফন্ট তথ্য নিষ্কাশন: PDF নথিতে ব্যবহৃত ফন্ট সম্পর্কে তথ্য বের করুন।
pdfminer.six দিয়ে শুরু করা
pypdf ইন্সটল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.6.0 বা উচ্চতর দরকার। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপর পিপ এবং ভার্চুয়াল পরিবেশ a>
লিনাক্স
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ম্যাক অপারেটিং সিস্টেম
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
উইন্ডোজ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF ডকুমেন্ট থেকে টেক্সট বের করুন
নিচের কোড স্নিপেটে দেখানো extract_text ফাংশনটি ব্যবহার করে একটি PDF নথি থেকে পাঠ্য বের করতে আপনি Python-এ pdfminer.six লাইব্রেরি ব্যবহার করতে পারেন:
আউটপুট
নিম্নলিখিত স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে নেওয়া পাঠ্য দেখায়:
পিডিএফ ডকুমেন্ট থেকে ফন্ট তথ্য বের করুন
এছাড়াও আমরা PDF নথিতে ব্যবহৃত ফন্টগুলির তথ্য যেমন ফন্টের নাম এবং ফন্টের আকার PDF এ প্রতিটি পৃষ্ঠার লেআউট উপাদানগুলির মাধ্যমে পুনরাবৃত্তি করে বের করতে পারি। উদাহরণস্বরূপ, নীচের কোড স্নিপেট চেক করুন:
আউটপুট
নিম্নলিখিত স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে বের করা ফন্ট তথ্য দেখায়:
উপসংহার
উপসংহারে, pdfminer.six-এর PDF নথি থেকে পাঠ্য এবং অন্যান্য তথ্য বের করার ক্ষমতা রয়েছে কিন্তু এতে পিডিএফ থেকে ছবি এবং টেবিল বের করার মতো কার্যকারিতার অভাব রয়েছে।
এটা মনে রাখা গুরুত্বপূর্ণ যে pdfminer.six লাইব্রেরি পিডিএফ পৃষ্ঠাগুলিকে ছবি হিসাবে নিষ্কাশন করতে সমর্থন করে তবে এটি PDF নথিতে এমবেড করা ছবিগুলি থেকে আলাদা যা pdfminer.six দ্বারা সমর্থিত নয়৷ যাইহোক, বিকাশকারীরা এখনও তাদের ডেটা বিশ্লেষণের প্রয়োজনের জন্য পাঠ্য বের করতে পাইথনে পিডিএফ পার্স করার জন্য এটির উপর নির্ভর করতে পারেন।