Открытая библиотека Python для извлечения текста из изображений

Используйте PyTesseract OCR для простого извлечения печатного и рукописного текста из изображений.

Что такое PyTesseract API для Python?

PyTesseract — это оболочка Python для Tesseract-OCR, мощного инструмента с открытым исходным кодом для извлечения текста из изображений. Он позволяет разработчикам легко конвертировать сканированные документы, рукописные заметки и текст на изображениях в машиночитаемый формат. PyTesseract широко используется для автоматизации, извлечения данных, оцифровки документов и в приложениях искусственного интеллекта (AI), требующих оптического распознавания символов (OCR).

Эта библиотека особенно полезна для автоматизации ввода данных, распознавания текста на скриншотах и оцифровки печатных документов. Благодаря поддержке нескольких языков и методам предобработки изображений PyTesseract предлагает эффективное и гибкое решение для извлечения текста из изображений.

Ключевые особенности PyTesseract API

Конвертация изображений в текст: Извлекайте печатный или рукописный текст из изображений с помощью OCR.
Поддержка множества языков: Распознает более 100 языков с помощью моделей Tesseract OCR.
Совместимость с предобработкой: Работает с OpenCV и PIL для улучшения изображений перед OCR.
Извлечение текста из PDF: Преобразует сканированные PDF-файлы в текст.
Извлечение текста с рамками: Получение текста вместе с его расположением на изображении.
Пакетная обработка: Эффективное выполнение OCR на нескольких изображениях одновременно.
Кроссплатформенность: Поддержка Windows, macOS и Linux.
Открытый исходный код: Бесплатное использование и поддержка сообщества.

Установка PyTesseract

Перед использованием PyTesseract убедитесь, что Tesseract-OCR установлен на вашем компьютере.

Установка

Установка PyTesseract и зависимостей


pip install pytesseract pillow opencv-python

Установка Tesseract-OCR в Windows:

Установка Tesseract-OCR (Windows)


# Скачать Tesseract можно по ссылке:
https://github.com/UB-Mannheim/tesseract/wiki

Установка в Linux:

Установка Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Примеры кода для извлечения текста с помощью PyTesseract API

Пример 1: Извлечение текста из изображения

Извлечение текста из изображения


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Пример 2: Извлечение текста с координатами

Извлечение текста с рамками


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Пример 3: Извлечение текста из черно-белого изображения

Извлечение текста из черно-белого изображения


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)