OCR-решение на основе глубокого обучения для Python
Используйте docTR для точного извлечения и распознавания текста из изображений.
Что такое API docTR для Python?
docTR (Document Text Recognition) - это открытая библиотека оптического распознавания символов (OCR) на основе глубокого обучения для Python. Она предоставляет современные возможности обнаружения и распознавания текста для сканированных документов, изображений и PDF-файлов. Используя современные архитектуры глубокого обучения, docTR обеспечивает высокую точность и эффективность при извлечении текста с сохранением структуры документа.
docTR широко используется для оцифровки документов, автоматического извлечения данных и приложений распознавания текста на основе ИИ. Поддерживает несколько языков, распознавание рукописного ввода и ускорение GPU для повышения производительности.
Ключевые возможности API docTR
- Продвинутый OCR на глубоком обучении: Использует нейронные сети для точного обнаружения и распознавания текста
- Поддержка нескольких форматов: Работает с изображениями, PDF и сканированными документами
- Распознавание рукописного текста: Обнаруживает и извлекает рукописный текст с высокой точностью
- Многоязычное распознавание: Поддерживает различные языки и системы письма
- Оптимизирован для скорости: Эффективное извлечение текста с ускорением GPU
- Сохранение структуры документа: Сохраняет макет при распознавании текста
- Масштабируемость и открытый код: Бесплатен в использовании и постоянно совершенствуется
Начало работы с API docTR
Для установки docTR используйте следующую команду pip:
Установка docTR
pip install python-doctr
Для включения ускорения GPU и более быстрой обработки установите дополнительные зависимости:
Установка зависимостей GPU
pip install tensorflow-gpu torch torchvision
Примеры кода для извлечения текста с использованием API docTR
Ниже приведены несколько примеров извлечения текста из изображений и документов с использованием docTR.
Пример 1: Извлечение текста из изображения
Этот пример показывает, как загрузить изображение, применить OCR с docTR и извлечь текст. Извлеченный текст включает его положение на изображении, что полезно для структурированной обработки документов.
Извлечение текста из изображения
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Пример 2: Обработка многостраничного PDF-документа
Если вам нужно извлечь текст из PDF-файла, содержащего несколько страниц, docTR упрощает этот процесс. В следующем примере показано, как эффективно извлекать текст с каждой страницы.
Извлечение текста из PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Пример 3: Распознавание рукописного текста
docTR также может распознавать рукописный текст, что делает его идеальным для оцифровки рукописных заметок, форм или исторических документов. Этот пример демонстрирует извлечение текста из синтетического рукописного документа.
Извлечение рукописного текста
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Заключение
API docTR - это мощное OCR-решение на основе глубокого обучения, которое упрощает извлечение текста из изображений, PDF-файлов и рукописных документов. Оно обеспечивает высокую точность при сохранении структуры документа, что делает его ценным инструментом для обработки документов на основе ИИ, автоматизации и извлечения данных.
Независимо от того, работаете ли вы над оцифровкой документов, автоматическим вводом данных или распознаванием текста на основе ИИ, docTR предоставляет гибкое и эффективное решение, адаптированное к вашим потребностям.