ছবি থেকে পাঠ্য বের করার জন্য ওপেন সোর্স পাইথন লাইব্রেরি
PyTesseract OCR ব্যবহার করে সহজেই প্রিন্টেড ও হাতে লেখা পাঠ্য বের করুন।
PyTesseract API কী?
PyTesseract হল Tesseract-OCR-এর জন্য একটি পাইথন র্যাপার, যা ছবি থেকে পাঠ্য বের করার জন্য একটি শক্তিশালী ওপেন সোর্স টুল। এটি ডেভেলপারদের স্ক্যান করা নথি, হাতে লেখা নোট এবং ছবির পাঠ্যকে সহজেই মেশিন-পঠনযোগ্য ফরম্যাটে রূপান্তর করার অনুমতি দেয়। PyTesseract স্বয়ংক্রিয়করণ, তথ্য আহরণ, নথির ডিজিটাইজেশন এবং কৃত্রিম বুদ্ধিমত্তা-ভিত্তিক অ্যাপ্লিকেশনের জন্য ব্যাপকভাবে ব্যবহৃত হয়।
এই লাইব্রেরিটি বিশেষভাবে স্বয়ংক্রিয় ডেটা ইনপুট, স্ক্রিনশট থেকে পাঠ্য বের করা এবং মুদ্রিত নথিগুলিকে ডিজিটাইজ করার জন্য সহায়ক। এটি একাধিক ভাষার সমর্থন এবং চিত্র প্রক্রিয়াকরণের কৌশলগুলির মাধ্যমে উচ্চ কার্যকারিতা এবং নমনীয়তা প্রদান করে।
PyTesseract API-এর প্রধান বৈশিষ্ট্য
- ছবি থেকে পাঠ্য রূপান্তর: OCR ব্যবহার করে মুদ্রিত বা হাতে লেখা পাঠ্য বের করুন।
- বহুভাষা সমর্থন: Tesseract OCR মডেলের মাধ্যমে ১০০+ ভাষা সমর্থন করে।
- প্রাক-প্রক্রিয়াকরণ সামঞ্জস্য: OCR পূর্ববর্তী চিত্র উন্নত করার জন্য OpenCV এবং PIL এর সাথে কাজ করে।
- PDF থেকে পাঠ্য আহরণ: স্ক্যান করা PDF ফাইলকে পাঠ্য ফরম্যাটে রূপান্তর করুন।
- বাউন্ডিং বক্স সহ পাঠ্য: পাঠ্য নির্দিষ্ট অবস্থানের সাথে বের করুন।
- ব্যাচ প্রক্রিয়াকরণ: একাধিক চিত্রে দ্রুত OCR চালান।
- ক্রস-প্ল্যাটফর্ম: Windows, macOS, এবং Linux-এ কাজ করে।
- ওপেন সোর্স: বিনামূল্যে ব্যবহারযোগ্য এবং কমিউনিটি দ্বারা সমর্থিত।
PyTesseract ইনস্টলেশন
PyTesseract ব্যবহারের আগে, নিশ্চিত করুন যে আপনার সিস্টেমে Tesseract-OCR ইনস্টল করা আছে।
ইনস্টলেশন
PyTesseract এবং প্রয়োজনীয় প্যাকেজ ইনস্টল করুন
pip install pytesseract pillow opencv-python
Windows-এ Tesseract-OCR ইনস্টল করুন:
Tesseract-OCR ইনস্টলেশন (Windows)
# Tesseract ডাউনলোড করুন:
https://github.com/UB-Mannheim/tesseract/wiki
Linux-এ ইনস্টল করতে:
Tesseract-OCR ইনস্টলেশন (Linux)
sudo apt install tesseract-ocr
PyTesseract API-এর কোড উদাহরণ
উদাহরণ ১: একটি চিত্র থেকে পাঠ্য বের করা
ছবি থেকে পাঠ্য বের করুন
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
উদাহরণ ২: বাউন্ডিং বক্স সহ পাঠ্য বের করা
বাউন্ডিং বক্স সহ পাঠ্য বের করুন
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
উদাহরণ ৩: ধূসর স্কেলে চিত্র থেকে পাঠ্য বের করা
ধূসর স্কেলে চিত্র থেকে পাঠ্য বের করুন
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)