Solução OCR baseada em deep learning para Python

Utilize o docTR para extração e reconhecimento preciso de texto em imagens.

O que é a API docTR para Python?

docTR (Document Text Recognition) é uma biblioteca de Reconhecimento Óptico de Caracteres (OCR) de código aberto baseada em deep learning para Python. Fornece detecção e reconhecimento de texto de última geração para documentos digitalizados, imagens e PDFs. Ao aproveitar arquiteturas modernas de deep learning, o docTR garante alta precisão e eficiência na extração de texto enquanto preserva a estrutura do documento.

O docTR é amplamente utilizado para digitalização de documentos, extração automatizada de dados e aplicações de reconhecimento de texto baseadas em IA. Suporta múltiplos idiomas, reconhecimento de escrita manual e aceleração por GPU para melhor desempenho.

Principais recursos da API docTR

OCR avançado baseado em deep learning: Utiliza redes neurais para detecção e reconhecimento preciso de texto
Suporte a múltiplos formatos: Funciona perfeitamente com imagens, PDFs e documentos digitalizados
Reconhecimento de escrita manual: Detecta e extrai texto manuscrito com notável precisão
Reconhecimento multilíngue: Suporta vários idiomas e sistemas de escrita
Otimizado para velocidade: Extração eficiente de texto com aceleração por GPU
Preserva o layout do documento: Mantém a estrutura durante o reconhecimento de texto
Escalável e de código aberto: Gratuito para uso e em constante evolução

Começando com a API docTR

Para instalar o docTR, use o seguinte comando pip:

Instalar docTR


pip install python-doctr

Se desejar habilitar aceleração por GPU para processamento mais rápido, instale as dependências adicionais:

Instalar dependências de GPU


pip install tensorflow-gpu torch torchvision

Exemplos de código para extração de texto usando a API docTR

Abaixo estão vários exemplos demonstrando extração de texto de imagens e documentos usando docTR.

API docTR para OCR

Exemplo 1: Extrair texto de uma imagem

Este exemplo demonstra como carregar uma imagem, aplicar OCR com docTR e extrair o texto. O texto extraído inclui sua posição na imagem, sendo útil para processamento estruturado de documentos.

Extrair texto de imagem


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemplo 2: Processar um documento PDF com múltiplas páginas

Se precisar extrair texto de um arquivo PDF contendo várias páginas, o docTR simplifica esse processo. O exemplo abaixo mostra como extrair texto de cada página de forma eficiente.

Extrair texto de PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Exemplo 3: Reconhecer texto manuscrito

O docTR também pode reconhecer texto manuscrito, sendo ideal para digitalizar notas escritas à mão, formulários ou documentos históricos. Este exemplo demonstra a extração de texto de um documento manuscrito sintético.

Extrair texto manuscrito


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Conclusão

A API docTR é uma poderosa solução OCR baseada em deep learning que simplifica a extração de texto de imagens, PDFs e documentos manuscritos. Garante alta precisão enquanto preserva a estrutura do documento, tornando-se uma ferramenta valiosa para processamento de documentos baseado em IA, automação e extração de dados.

Seja para digitalização de documentos, entrada automatizada de dados ou reconhecimento de texto baseado em IA, o docTR fornece uma solução flexível e eficiente adaptada às suas necessidades.