OCR-решение на основе глубокого обучения для Python

Используйте docTR для точного извлечения и распознавания текста из изображений.

Что такое API docTR для Python?

docTR (Document Text Recognition) - это открытая библиотека оптического распознавания символов (OCR) на основе глубокого обучения для Python. Она предоставляет современные возможности обнаружения и распознавания текста для сканированных документов, изображений и PDF-файлов. Используя современные архитектуры глубокого обучения, docTR обеспечивает высокую точность и эффективность при извлечении текста с сохранением структуры документа.

docTR широко используется для оцифровки документов, автоматического извлечения данных и приложений распознавания текста на основе ИИ. Поддерживает несколько языков, распознавание рукописного ввода и ускорение GPU для повышения производительности.

Ключевые возможности API docTR

Продвинутый OCR на глубоком обучении: Использует нейронные сети для точного обнаружения и распознавания текста
Поддержка нескольких форматов: Работает с изображениями, PDF и сканированными документами
Распознавание рукописного текста: Обнаруживает и извлекает рукописный текст с высокой точностью
Многоязычное распознавание: Поддерживает различные языки и системы письма
Оптимизирован для скорости: Эффективное извлечение текста с ускорением GPU
Сохранение структуры документа: Сохраняет макет при распознавании текста
Масштабируемость и открытый код: Бесплатен в использовании и постоянно совершенствуется

Начало работы с API docTR

Для установки docTR используйте следующую команду pip:

Установка docTR


pip install python-doctr

Для включения ускорения GPU и более быстрой обработки установите дополнительные зависимости:

Установка зависимостей GPU


pip install tensorflow-gpu torch torchvision

Примеры кода для извлечения текста с использованием API docTR

Ниже приведены несколько примеров извлечения текста из изображений и документов с использованием docTR.

API docTR для OCR

Пример 1: Извлечение текста из изображения

Этот пример показывает, как загрузить изображение, применить OCR с docTR и извлечь текст. Извлеченный текст включает его положение на изображении, что полезно для структурированной обработки документов.

Извлечение текста из изображения


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Пример 2: Обработка многостраничного PDF-документа

Если вам нужно извлечь текст из PDF-файла, содержащего несколько страниц, docTR упрощает этот процесс. В следующем примере показано, как эффективно извлекать текст с каждой страницы.

Извлечение текста из PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Пример 3: Распознавание рукописного текста

docTR также может распознавать рукописный текст, что делает его идеальным для оцифровки рукописных заметок, форм или исторических документов. Этот пример демонстрирует извлечение текста из синтетического рукописного документа.

Извлечение рукописного текста


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Заключение

API docTR - это мощное OCR-решение на основе глубокого обучения, которое упрощает извлечение текста из изображений, PDF-файлов и рукописных документов. Оно обеспечивает высокую точность при сохранении структуры документа, что делает его ценным инструментом для обработки документов на основе ИИ, автоматизации и извлечения данных.

Независимо от того, работаете ли вы над оцифровкой документов, автоматическим вводом данных или распознаванием текста на основе ИИ, docTR предоставляет гибкое и эффективное решение, адаптированное к вашим потребностям.