Solução OCR baseada em deep learning para Python
Utilize o docTR para extração e reconhecimento preciso de texto em imagens.
O que é a API docTR para Python?
docTR (Document Text Recognition) é uma biblioteca de Reconhecimento Óptico de Caracteres (OCR) de código aberto baseada em deep learning para Python. Fornece detecção e reconhecimento de texto de última geração para documentos digitalizados, imagens e PDFs. Ao aproveitar arquiteturas modernas de deep learning, o docTR garante alta precisão e eficiência na extração de texto enquanto preserva a estrutura do documento.
O docTR é amplamente utilizado para digitalização de documentos, extração automatizada de dados e aplicações de reconhecimento de texto baseadas em IA. Suporta múltiplos idiomas, reconhecimento de escrita manual e aceleração por GPU para melhor desempenho.
Principais recursos da API docTR
- OCR avançado baseado em deep learning: Utiliza redes neurais para detecção e reconhecimento preciso de texto
- Suporte a múltiplos formatos: Funciona perfeitamente com imagens, PDFs e documentos digitalizados
- Reconhecimento de escrita manual: Detecta e extrai texto manuscrito com notável precisão
- Reconhecimento multilíngue: Suporta vários idiomas e sistemas de escrita
- Otimizado para velocidade: Extração eficiente de texto com aceleração por GPU
- Preserva o layout do documento: Mantém a estrutura durante o reconhecimento de texto
- Escalável e de código aberto: Gratuito para uso e em constante evolução
Começando com a API docTR
Para instalar o docTR, use o seguinte comando pip:
Instalar docTR
pip install python-doctr
Se desejar habilitar aceleração por GPU para processamento mais rápido, instale as dependências adicionais:
Instalar dependências de GPU
pip install tensorflow-gpu torch torchvision
Exemplos de código para extração de texto usando a API docTR
Abaixo estão vários exemplos demonstrando extração de texto de imagens e documentos usando docTR.
Exemplo 1: Extrair texto de uma imagem
Este exemplo demonstra como carregar uma imagem, aplicar OCR com docTR e extrair o texto. O texto extraído inclui sua posição na imagem, sendo útil para processamento estruturado de documentos.
Extrair texto de imagem
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Exemplo 2: Processar um documento PDF com múltiplas páginas
Se precisar extrair texto de um arquivo PDF contendo várias páginas, o docTR simplifica esse processo. O exemplo abaixo mostra como extrair texto de cada página de forma eficiente.
Extrair texto de PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Exemplo 3: Reconhecer texto manuscrito
O docTR também pode reconhecer texto manuscrito, sendo ideal para digitalizar notas escritas à mão, formulários ou documentos históricos. Este exemplo demonstra a extração de texto de um documento manuscrito sintético.
Extrair texto manuscrito
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Conclusão
A API docTR é uma poderosa solução OCR baseada em deep learning que simplifica a extração de texto de imagens, PDFs e documentos manuscritos. Garante alta precisão enquanto preserva a estrutura do documento, tornando-se uma ferramenta valiosa para processamento de documentos baseado em IA, automação e extração de dados.
Seja para digitalização de documentos, entrada automatizada de dados ou reconhecimento de texto baseado em IA, o docTR fornece uma solução flexível e eficiente adaptada às suas necessidades.