1. منتجات
  2.   محلل
  3.   Python
  4.   PyTesseract
 
  

مكتبة بايثون مفتوحة المصدر لاستخراج النصوص من الصور

استفد من PyTesseract OCR لاستخراج النصوص المطبوعة والمكتوبة بخط اليد من الصور بسهولة.

ما هي واجهة PyTesseract لبايثون؟

PyTesseract هي مكتبة بايثون تعمل كواجهة لمحرك Tesseract-OCR من Google، وهي أداة مفتوحة المصدر قوية لاستخراج النصوص من الصور. تمكن المطورين من تحويل المستندات الممسوحة ضوئيًا والملاحظات المكتوبة بخط اليد والنصوص القائمة على الصور إلى محتوى قابل للقراءة آليًا بسهولة. تُستخدم PyTesseract على نطاق واسع في الأتمتة واستخراج البيانات ورقمنة المستندات والتطبيقات التي تعتمد على التعرف الضوئي على الحروف (OCR).

هذه المكتبة مفيدة بشكل خاص لأتمتة إدخال البيانات، واستخراج النصوص من لقطات الشاشة، وتحويل المستندات المطبوعة إلى نصوص رقمية. بفضل دعمها لعدة لغات وتقنيات معالجة الصور المتقدمة، تقدم PyTesseract حلًا مرنًا وفعالًا لاستخراج النصوص من الصور.

GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

المميزات الرئيسية لواجهة PyTesseract

  • تحويل الصور إلى نصوص: استخراج النصوص المطبوعة أو المكتوبة بخط اليد من الصور باستخدام تقنية OCR.
  • دعم متعدد اللغات: يدعم أكثر من 100 لغة باستخدام نماذج Tesseract OCR.
  • متوافق مع المعالجة المسبقة: يعمل مع OpenCV و PIL لتحسين الصور قبل التعرف الضوئي.
  • استخراج النصوص من ملفات PDF: تحويل ملفات PDF الممسوحة ضوئيًا إلى نصوص قابلة للبحث.
  • استخراج النصوص مع تحديد مواقعها: استخراج النصوص مع صناديق تحديد لمواقعها.
  • معالجة الدُفعات: إجراء التعرف الضوئي على الحروف لعدة صور بكفاءة.
  • متعدد المنصات: متوافق مع أنظمة Windows و macOS و Linux.
  • مفتوح المصدر: مجاني للاستخدام ومدعوم من قبل المجتمع.

بدء الاستخدام مع PyTesseract

قبل استخدام PyTesseract، تأكد من تثبيت Tesseract-OCR على نظامك.

تثبيت المكتبة

تثبيت PyTesseract والمتطلبات


pip install pytesseract pillow opencv-python

قم بتثبيت Tesseract-OCR على Windows:

تثبيت Tesseract-OCR (Windows)


# قم بتنزيل Tesseract من:
https://github.com/UB-Mannheim/tesseract/wiki

على Linux، استخدم الأمر التالي:

تثبيت Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

أمثلة على استخراج النصوص باستخدام PyTesseract

مثال 1: استخراج النصوص من صورة

استخراج النصوص من صورة


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

مثال 2: استخراج النصوص مع تحديد مواقعها

استخراج النصوص مع تحديد مواقعها


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

مثال 3: استخراج النصوص من صورة رمادية

استخراج النصوص من صورة رمادية


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)

منتجات مماثلة

     عربي