1. Products
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

ওপেন সোর্স পাইথন পিডিএফ পার্সার লাইব্রেরি

পিডিএফ পার্স করার জন্য ফ্রি এবং ওপেন সোর্স পাইথন লাইব্রেরি এবং ফরম্যাটিং তথ্য সহ টেক্সট এক্সট্রাক্ট করুন।

pdfminer.six কি?

Pdfminer.six হল একটি ওপেন সোর্স পাইথন লাইব্রেরি এবং পিডিএফ ডকুমেন্ট থেকে ডেটা বের করার টুলসেট। আপনি PDF নথি পার্স করতে পারেন এবং ডেটা বিশ্লেষণের জন্য PDF থেকে পাঠ্য, বিষয়বস্তুর সারণী এবং ট্যাগ করা বিষয়বস্তু ইত্যাদি বের করতে পারেন।

এখানে এর পার্সিং বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত তালিকা রয়েছে:

  • টেক্সট এক্সট্রাকশন: লেআউট এবং ফর্ম্যাটিং তথ্য যেমন টেক্সট কালার, ফন্ট এবং লোকেশন ইত্যাদি সহ PDF ডকুমেন্ট থেকে টেক্সট কন্টেন্ট বের করুন।
  • ফন্ট তথ্য নিষ্কাশন: PDF নথিতে ব্যবহৃত ফন্ট সম্পর্কে তথ্য বের করুন।
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

pdfminer.six দিয়ে শুরু করা

pypdf ইন্সটল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.6.0 বা উচ্চতর দরকার। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপর পিপ এবং ভার্চুয়াল পরিবেশ a>

লিনাক্স


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ম্যাক অপারেটিং সিস্টেম


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

উইন্ডোজ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF ডকুমেন্ট থেকে টেক্সট বের করুন

নিচের কোড স্নিপেটে দেখানো extract_text ফাংশনটি ব্যবহার করে একটি PDF নথি থেকে পাঠ্য বের করতে আপনি Python-এ pdfminer.six লাইব্রেরি ব্যবহার করতে পারেন:

আউটপুট

নিম্নলিখিত স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে নেওয়া পাঠ্য দেখায়:

পিডিএফ ডকুমেন্ট থেকে ফন্ট তথ্য বের করুন

এছাড়াও আমরা PDF নথিতে ব্যবহৃত ফন্টগুলির তথ্য যেমন ফন্টের নাম এবং ফন্টের আকার PDF এ প্রতিটি পৃষ্ঠার লেআউট উপাদানগুলির মাধ্যমে পুনরাবৃত্তি করে বের করতে পারি। উদাহরণস্বরূপ, নীচের কোড স্নিপেট চেক করুন:

আউটপুট

নিম্নলিখিত স্ক্রিনশটটি পিডিএফ ডকুমেন্ট থেকে বের করা ফন্ট তথ্য দেখায়:

উপসংহার

উপসংহারে, pdfminer.six-এর PDF নথি থেকে পাঠ্য এবং অন্যান্য তথ্য বের করার ক্ষমতা রয়েছে কিন্তু এতে পিডিএফ থেকে ছবি এবং টেবিল বের করার মতো কার্যকারিতার অভাব রয়েছে।

এটা মনে রাখা গুরুত্বপূর্ণ যে pdfminer.six লাইব্রেরি পিডিএফ পৃষ্ঠাগুলিকে ছবি হিসাবে নিষ্কাশন করতে সমর্থন করে তবে এটি PDF নথিতে এমবেড করা ছবিগুলি থেকে আলাদা যা pdfminer.six দ্বারা সমর্থিত নয়৷ যাইহোক, বিকাশকারীরা এখনও তাদের ডেটা বিশ্লেষণের প্রয়োজনের জন্য পাঠ্য বের করতে পাইথনে পিডিএফ পার্স করার জন্য এটির উপর নির্ভর করতে পারেন।

Similar Products

 Bengali