1. Products
  2.   Conversion
  3.   Python
  4.   pdfminer.six
 
  

পিডিএফ থেকে এইচটিএমএল/এক্সএমএল রূপান্তর পাইথন লাইব্রেরি

পিডিএফ ডকুমেন্টগুলিকে এইচটিএমএল এবং এক্সএমএলে রূপান্তর করতে বিনামূল্যে এবং ওপেন সোর্স পাইথন লাইব্রেরি।

pdfminer.six কি?

pdfminer.six হল একটি বিনামূল্যের এবং ওপেন সোর্স পাইথন লাইব্রেরি যা PDF নথিগুলিকে অন্যান্য বিন্যাসে রূপান্তর করতে ব্যবহার করা যেতে পারে।

এখানে এর প্রধান PDF রূপান্তর বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত তালিকা রয়েছে:

  • পিডিএফ থেকে এইচটিএমএল রূপান্তর: নথির গঠন এবং বিন্যাস সংরক্ষণ করার সময় PDF নথিগুলিকে HTML বিন্যাসে রূপান্তর করুন৷
  • PDF থেকে XML রূপান্তর: PDF ফাইলগুলিকে XML ফর্ম্যাটে রূপান্তর করুন, ফন্ট এবং অন্যান্য উপাদান সহ সমস্ত বিবরণ ক্যাপচার করুন৷
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

pdfminer.six দিয়ে শুরু করা

pypdf ইন্সটল এবং ব্যবহার করার জন্য আপনার Python সংস্করণ 3.6.0 বা উচ্চতর দরকার। সুতরাং, প্রথমে Python ইনস্টল করুন এবং তারপর পিপ এবং ভার্চুয়াল পরিবেশ a>

লিনাক্স


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ম্যাক অপারেটিং সিস্টেম


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

উইন্ডোজ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

পিডিএফকে এইচটিএমএলে রূপান্তর করুন

আমরা pdfminer.six লাইব্রেরির extract_text_to_fp ফাংশন ব্যবহার করে একটি PDF ডকুমেন্টকে HTML ফরম্যাটে রূপান্তর করতে পারি যা লাইব্রেরি দ্বারা প্রদত্ত আউটপুট টাইপ html এ সেট করা হয়েছে, যেমনটি নিচের কোড স্নিপেটে দেখানো হয়েছে:

আউটপুট

নিম্নলিখিত স্ক্রিনশটটি পিডিএফ সকুমেন্ট রূপান্তর করে তৈরি করা এইচটিএমএল ফাইল দেখায়:

পিডিএফকে XML-এ রূপান্তর করা হচ্ছে

আমরা লাইব্রেরির দেওয়া একই extract_text_to_fp ফাংশন ব্যবহার করে একটি PDF ডকুমেন্টকে XML ফরম্যাটে রূপান্তর করতে পারি (কিন্তু আউটপুট টাইপ xml-এ সেট করা আছে) যেমন নিচের কোড স্নিপেটে দেখানো হয়েছে:

আউটপুট

নিম্নলিখিত স্ক্রিনশটটি PDF নথি থেকে রূপান্তরিত XML সামগ্রী দেখায়:

উপসংহার

সাধারণত, pdfminer.six কোনো সমস্যা ছাড়াই পিডিএফ ডকুমেন্টগুলিকে XML ফর্ম্যাটে রূপান্তর করতে সমর্থন করে কিন্তু যখন পিডিএফকে HTML-এ রূপান্তর করার চেষ্টা করা হয়, তখন এটি পাঠ্য বিষয়বস্তু স্থানান্তর করতে পারে কিন্তু প্রায়ই সামগ্রিক বিন্যাসকে ব্যাহত করে।

Similar Products

 Bengali