Відкрита бібліотека Python для витягування тексту із зображень
Використовуйте PyTesseract OCR для простого витягування друкованого та рукописного тексту із зображень.
Що таке PyTesseract API для Python?
PyTesseract — це оболонка Python для Tesseract-OCR, потужного інструменту з відкритим вихідним кодом для витягування тексту із зображень. Він дозволяє розробникам легко конвертувати скановані документи, рукописні нотатки та текст на зображеннях у машиночитний формат. PyTesseract широко використовується в автоматизації, вилученні даних, оцифровці документів та AI-додатках, що потребують оптичного розпізнавання символів (OCR).
Ця бібліотека особливо корисна для автоматизації введення даних, розпізнавання тексту зі скріншотів та оцифрування друкованих документів. Завдяки підтримці кількох мов і технологій попередньої обробки зображень PyTesseract пропонує ефективне та гнучке рішення для витягування тексту із зображень.
Основні можливості PyTesseract API
- Конвертація зображень у текст: Витягування друкованого або рукописного тексту із зображень за допомогою OCR.
- Підтримка кількох мов: Працює з більш ніж 100 мовами завдяки моделям OCR Tesseract.
- Сумісність із попередньою обробкою: Використовує OpenCV та PIL для покращення якості зображень перед розпізнаванням.
- Витягування тексту з PDF: Конвертація сканованих PDF-файлів у пошуковий текст.
- Витягування тексту з координатами: Отримання тексту разом із його розташуванням на зображенні.
- Обробка пакетів: OCR-аналіз кількох зображень одночасно.
- Кросплатформна підтримка: Працює у Windows, macOS та Linux.
- Відкритий вихідний код: Безкоштовний для використання та підтримується спільнотою.
Встановлення PyTesseract
Перед використанням PyTesseract переконайтеся, що Tesseract-OCR встановлений у вашій системі.
Інструкція з встановлення
Встановлення PyTesseract та залежностей
pip install pytesseract pillow opencv-python
Встановлення Tesseract-OCR у Windows:
Встановлення Tesseract-OCR (Windows)
# Завантажте Tesseract з:
https://github.com/UB-Mannheim/tesseract/wiki
Встановлення в Linux:
Встановлення Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Приклади коду для витягування тексту за допомогою PyTesseract API
Приклад 1: Витягування тексту із зображення
Витягування тексту із зображення
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Приклад 2: Витягування тексту з координатами
Витягування тексту з координатами
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Приклад 3: Витягування тексту із зображення у градаціях сірого
Витягування тексту із зображення у градаціях сірого
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)