Biblioteca Open-Source para Extração de Texto de Imagens no Python
Utilize a API OCR do PyTesseract para extrair texto impresso e manuscrito de imagens facilmente.
O que é a API PyTesseract para Python?
O PyTesseract é um wrapper em Python para o Tesseract-OCR, uma poderosa ferramenta de código aberto para extração de texto de imagens. Ele permite que os desenvolvedores convertam documentos escaneados, notas manuscritas e texto presente em imagens para um formato legível por máquina com o mínimo esforço. O PyTesseract é amplamente utilizado em automação, extração de dados, digitalização de documentos e aplicações de inteligência artificial (IA) que necessitam de reconhecimento óptico de caracteres (OCR).
Essa biblioteca é especialmente útil para automatizar a inserção de dados, reconhecer texto a partir de capturas de tela e digitalizar documentos impressos. Com suporte para vários idiomas e técnicas de pré-processamento de imagem, o PyTesseract oferece uma solução eficiente e flexível para extração de texto de imagens.
Principais Recursos da API PyTesseract
- Conversão de imagens para texto: Extrai texto impresso ou manuscrito de imagens utilizando OCR.
- Suporte para múltiplos idiomas: Reconhece mais de 100 idiomas utilizando os modelos OCR do Tesseract.
- Compatibilidade com pré-processamento: Funciona com OpenCV e PIL para melhorar a qualidade da imagem antes da extração do texto.
- Extração de texto de PDFs: Converte arquivos PDF escaneados para texto pesquisável.
- Extração de texto com caixas delimitadoras: Obtém o texto junto com sua posição na imagem.
- Processamento em lote: Executa OCR em várias imagens simultaneamente de maneira eficiente.
- Suporte multiplataforma: Compatível com Windows, macOS e Linux.
- Código aberto: Gratuito para uso e mantido pela comunidade.
Instalação do PyTesseract
Antes de utilizar o PyTesseract, certifique-se de que o Tesseract-OCR está instalado no seu sistema.
Processo de Instalação
Instalar PyTesseract e dependências
pip install pytesseract pillow opencv-python
Instalação do Tesseract-OCR no Windows:
Instalar Tesseract-OCR (Windows)
# Baixe o Tesseract de:
https://github.com/UB-Mannheim/tesseract/wiki
Instalação no Linux:
Instalar Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Exemplos de Código para Extração de Texto com a API PyTesseract
Exemplo 1: Extrair texto de uma imagem
Extrair texto de uma imagem
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Exemplo 2: Extração de texto com caixas delimitadoras
Extração de texto com caixas delimitadoras
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Exemplo 3: Extração de texto de imagem em tons de cinza
Extração de texto de imagem em tons de cinza
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)