Biblioteca Open-Source para Extração de Texto de Imagens no Python

Utilize a API OCR do PyTesseract para extrair texto impresso e manuscrito de imagens facilmente.

O que é a API PyTesseract para Python?

O PyTesseract é um wrapper em Python para o Tesseract-OCR, uma poderosa ferramenta de código aberto para extração de texto de imagens. Ele permite que os desenvolvedores convertam documentos escaneados, notas manuscritas e texto presente em imagens para um formato legível por máquina com o mínimo esforço. O PyTesseract é amplamente utilizado em automação, extração de dados, digitalização de documentos e aplicações de inteligência artificial (IA) que necessitam de reconhecimento óptico de caracteres (OCR).

Essa biblioteca é especialmente útil para automatizar a inserção de dados, reconhecer texto a partir de capturas de tela e digitalizar documentos impressos. Com suporte para vários idiomas e técnicas de pré-processamento de imagem, o PyTesseract oferece uma solução eficiente e flexível para extração de texto de imagens.

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Principais Recursos da API PyTesseract

Conversão de imagens para texto: Extrai texto impresso ou manuscrito de imagens utilizando OCR.
Suporte para múltiplos idiomas: Reconhece mais de 100 idiomas utilizando os modelos OCR do Tesseract.
Compatibilidade com pré-processamento: Funciona com OpenCV e PIL para melhorar a qualidade da imagem antes da extração do texto.
Extração de texto de PDFs: Converte arquivos PDF escaneados para texto pesquisável.
Extração de texto com caixas delimitadoras: Obtém o texto junto com sua posição na imagem.
Processamento em lote: Executa OCR em várias imagens simultaneamente de maneira eficiente.
Suporte multiplataforma: Compatível com Windows, macOS e Linux.
Código aberto: Gratuito para uso e mantido pela comunidade.

Instalação do PyTesseract

Antes de utilizar o PyTesseract, certifique-se de que o Tesseract-OCR está instalado no seu sistema.

Processo de Instalação

Instalar PyTesseract e dependências


pip install pytesseract pillow opencv-python

Instalação do Tesseract-OCR no Windows:

Instalar Tesseract-OCR (Windows)


# Baixe o Tesseract de:
https://github.com/UB-Mannheim/tesseract/wiki

Instalação no Linux:

Instalar Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Exemplos de Código para Extração de Texto com a API PyTesseract

Exemplo 1: Extrair texto de uma imagem

Extrair texto de uma imagem


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Exemplo 2: Extração de texto com caixas delimitadoras

Extração de texto com caixas delimitadoras


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Exemplo 3: Extração de texto de imagem em tons de cinza

Extração de texto de imagem em tons de cinza


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)