Открытая библиотека Python для извлечения текста из изображений
Используйте PyTesseract OCR для простого извлечения печатного и рукописного текста из изображений.
Что такое PyTesseract API для Python?
PyTesseract — это оболочка Python для Tesseract-OCR, мощного инструмента с открытым исходным кодом для извлечения текста из изображений. Он позволяет разработчикам легко конвертировать сканированные документы, рукописные заметки и текст на изображениях в машиночитаемый формат. PyTesseract широко используется для автоматизации, извлечения данных, оцифровки документов и в приложениях искусственного интеллекта (AI), требующих оптического распознавания символов (OCR).
Эта библиотека особенно полезна для автоматизации ввода данных, распознавания текста на скриншотах и оцифровки печатных документов. Благодаря поддержке нескольких языков и методам предобработки изображений PyTesseract предлагает эффективное и гибкое решение для извлечения текста из изображений.
Ключевые особенности PyTesseract API
- Конвертация изображений в текст: Извлекайте печатный или рукописный текст из изображений с помощью OCR.
- Поддержка множества языков: Распознает более 100 языков с помощью моделей Tesseract OCR.
- Совместимость с предобработкой: Работает с OpenCV и PIL для улучшения изображений перед OCR.
- Извлечение текста из PDF: Преобразует сканированные PDF-файлы в текст.
- Извлечение текста с рамками: Получение текста вместе с его расположением на изображении.
- Пакетная обработка: Эффективное выполнение OCR на нескольких изображениях одновременно.
- Кроссплатформенность: Поддержка Windows, macOS и Linux.
- Открытый исходный код: Бесплатное использование и поддержка сообщества.
Установка PyTesseract
Перед использованием PyTesseract убедитесь, что Tesseract-OCR установлен на вашем компьютере.
Установка
Установка PyTesseract и зависимостей
pip install pytesseract pillow opencv-python
Установка Tesseract-OCR в Windows:
Установка Tesseract-OCR (Windows)
# Скачать Tesseract можно по ссылке:
https://github.com/UB-Mannheim/tesseract/wiki
Установка в Linux:
Установка Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Примеры кода для извлечения текста с помощью PyTesseract API
Пример 1: Извлечение текста из изображения
Извлечение текста из изображения
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Пример 2: Извлечение текста с координатами
Извлечение текста с рамками
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Пример 3: Извлечение текста из черно-белого изображения
Извлечение текста из черно-белого изображения
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)