Biblioteca de Python de código abierto para extraer texto de imágenes
Aprovecha PyTesseract OCR para extraer fácilmente texto impreso y manuscrito de imágenes.
¿Qué es la API PyTesseract para Python?
PyTesseract es un envoltorio de Python para Tesseract-OCR, una poderosa herramienta de código abierto para extraer texto de imágenes. Permite a los desarrolladores convertir documentos escaneados, notas manuscritas y texto en imágenes en un formato legible por máquina con un esfuerzo mínimo. PyTesseract se usa ampliamente en automatización, extracción de datos, digitalización de documentos y aplicaciones de inteligencia artificial que requieren reconocimiento óptico de caracteres (OCR).
Esta biblioteca es especialmente útil para la automatización de entrada de datos, reconocimiento de texto en capturas de pantalla y digitalización de documentos impresos. Con soporte para múltiples idiomas y técnicas de preprocesamiento de imágenes, PyTesseract ofrece una solución eficiente y flexible para extraer texto de imágenes.
Características clave de PyTesseract API
- Conversión de imágenes a texto: Extrae texto impreso o manuscrito de imágenes mediante OCR.
- Soporte para múltiples idiomas: Reconoce más de 100 idiomas con los modelos de Tesseract OCR.
- Compatibilidad con preprocesamiento: Funciona con OpenCV y PIL para mejorar las imágenes antes de OCR.
- Extracción de texto de PDF: Convierte archivos PDF escaneados en texto editable.
- Extracción de texto con cuadros delimitadores: Obtiene texto con su posición dentro de la imagen.
- Procesamiento por lotes: Ejecuta OCR de manera eficiente en múltiples imágenes.
- Compatibilidad multiplataforma: Funciona en Windows, macOS y Linux.
- Código abierto: Gratuito y respaldado por la comunidad.
Instalación de PyTesseract
Antes de usar PyTesseract, asegúrate de que Tesseract-OCR esté instalado en tu sistema.
Instalación
Instalar PyTesseract y dependencias
pip install pytesseract pillow opencv-python
Instalación de Tesseract-OCR en Windows:
Instalación de Tesseract-OCR (Windows)
# Descarga Tesseract desde:
https://github.com/UB-Mannheim/tesseract/wiki
Instalación en Linux:
Instalación de Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Ejemplos de código para la extracción de texto con PyTesseract API
Ejemplo 1: Extraer texto de una imagen
Extraer texto de una imagen
import pytesseract
from PIL import Image
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Ejemplo 2: Extraer texto con cuadros delimitadores
Extraer texto con cuadros delimitadores
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Ejemplo 3: Extraer texto de una imagen en escala de grises
Extraer texto de una imagen en escala de grises
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)