Рішення OCR на основі глибокого навчання у Python
Використовуйте docTR для точного витягування та розпізнавання тексту з зображень
Що таке API docTR для Python?
docTR (Document Text Recognition) — це бібліотека оптичного розпізнавання символів (OCR) з відкритим кодом на основі глибокого навчання для Python. Вона надає передові можливості виявлення та розпізнавання тексту для сканованих документів, зображень та PDF-файлів. Використовуючи сучасні архітектури глибокого навчання, docTR забезпечує високу точність і ефективність під час витягування тексту зі збереженням структури документа.
docTR широко використовується для оцифрування документів, автоматизованого витягування даних і програм розпізнавання тексту на основі ШІ. Підтримує кілька мов, розпізнавання рукописного введення та прискорення GPU для покращення продуктивності.
Ключові можливості API docTR
- Розширене OCR на глибокому навчанні: Використовує нейронні мережі для точного виявлення та розпізнавання тексту
- Підтримка кількох форматів: Працює зі зображеннями, PDF та сканованими документами
- Розпізнавання рукописного тексту: Виявляє та витягує рукописний текст з високою точністю
- Багатомовне розпізнавання: Підтримує різні мови та системи письма
- Оптимізовано для швидкості: Ефективне витягування тексту з прискоренням GPU
- Зберігає структуру документа: Зберігає макет під час розпізнавання тексту
- Масштабований та з відкритим кодом: Безкоштовний у використанні та постійно вдосконалюється
Початок роботи з API docTR
Щоб встановити docTR, використовуйте наступну команду pip:
Встановити docTR
pip install python-doctr
Якщо ви хочете увімкнути прискорення GPU для швидшої обробки, встановіть додаткові залежності:
Встановити залежності GPU
pip install tensorflow-gpu torch torchvision
Приклади коду для витягування тексту за допомогою API docTR
Нижче наведено кілька прикладів витягування тексту зі зображень і документів за допомогою docTR.
Приклад 1: Витягнення тексту з зображення
Цей приклад демонструє, як завантажити зображення, застосувати OCR за допомогою docTR і витягти текст. Витягнутий текст містить своє розташування на зображенні, що є корисним для структурованого оброблення документів.
Витягти текст з зображення
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Приклад 2: Обробка багатосторінкового PDF-документа
Якщо вам потрібно витягти текст із PDF-файлу, що містить кілька сторінок, docTR спрощує цей процес. Наступний приклад показує, як ефективно витягувати текст з кожної сторінки.
Витягти текст з PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Приклад 3: Розпізнавання рукописного тексту
docTR також може розпізнавати рукописний текст, що робить його ідеальним для оцифрування рукописних нотаток, форм або історичних документів. Цей приклад демонструє витягування тексту з синтетичного рукописного документа.
Витягти рукописний текст
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Висновок
API docTR — це потужне рішення OCR на основі глибокого навчання, яке спрощує витягування тексту зі зображень, PDF-файлів і рукописних документів. Воно забезпечує високу точність при збереженні структури документа, що робить його цінним інструментом для обробки документів на основі ШІ, автоматизації та витягування даних.
Незалежно від того, чи працюєте ви над оцифруванням документів, автоматизованим введенням даних або розпізнаванням тексту на основі ШІ, docTR надає гнучке та ефективне рішення, адаптоване до ваших потреб.