Biblioteca de Python de código abierto para extraer texto de imágenes

Aprovecha PyTesseract OCR para extraer fácilmente texto impreso y manuscrito de imágenes.

¿Qué es la API PyTesseract para Python?

PyTesseract es un envoltorio de Python para Tesseract-OCR, una poderosa herramienta de código abierto para extraer texto de imágenes. Permite a los desarrolladores convertir documentos escaneados, notas manuscritas y texto en imágenes en un formato legible por máquina con un esfuerzo mínimo. PyTesseract se usa ampliamente en automatización, extracción de datos, digitalización de documentos y aplicaciones de inteligencia artificial que requieren reconocimiento óptico de caracteres (OCR).

Esta biblioteca es especialmente útil para la automatización de entrada de datos, reconocimiento de texto en capturas de pantalla y digitalización de documentos impresos. Con soporte para múltiples idiomas y técnicas de preprocesamiento de imágenes, PyTesseract ofrece una solución eficiente y flexible para extraer texto de imágenes.

Estadísticas de GitHub

Nombre:
Idioma:
Estrellas:
Tenedores:
Licencia:
El repositorio se actualizó por última vez en

Características clave de PyTesseract API

Conversión de imágenes a texto: Extrae texto impreso o manuscrito de imágenes mediante OCR.
Soporte para múltiples idiomas: Reconoce más de 100 idiomas con los modelos de Tesseract OCR.
Compatibilidad con preprocesamiento: Funciona con OpenCV y PIL para mejorar las imágenes antes de OCR.
Extracción de texto de PDF: Convierte archivos PDF escaneados en texto editable.
Extracción de texto con cuadros delimitadores: Obtiene texto con su posición dentro de la imagen.
Procesamiento por lotes: Ejecuta OCR de manera eficiente en múltiples imágenes.
Compatibilidad multiplataforma: Funciona en Windows, macOS y Linux.
Código abierto: Gratuito y respaldado por la comunidad.

Instalación de PyTesseract

Antes de usar PyTesseract, asegúrate de que Tesseract-OCR esté instalado en tu sistema.

Instalación

Instalar PyTesseract y dependencias


pip install pytesseract pillow opencv-python

Instalación de Tesseract-OCR en Windows:

Instalación de Tesseract-OCR (Windows)


# Descarga Tesseract desde:
https://github.com/UB-Mannheim/tesseract/wiki

Instalación en Linux:

Instalación de Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Ejemplos de código para la extracción de texto con PyTesseract API

Ejemplo 1: Extraer texto de una imagen

Extraer texto de una imagen


import pytesseract
from PIL import Image
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Ejemplo 2: Extraer texto con cuadros delimitadores

Extraer texto con cuadros delimitadores


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Ejemplo 3: Extraer texto de una imagen en escala de grises

Extraer texto de una imagen en escala de grises


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)