Рішення OCR на основі глибокого навчання у Python

Використовуйте docTR для точного витягування та розпізнавання тексту з зображень

Що таке API docTR для Python?

docTR (Document Text Recognition) — це бібліотека оптичного розпізнавання символів (OCR) з відкритим кодом на основі глибокого навчання для Python. Вона надає передові можливості виявлення та розпізнавання тексту для сканованих документів, зображень та PDF-файлів. Використовуючи сучасні архітектури глибокого навчання, docTR забезпечує високу точність і ефективність під час витягування тексту зі збереженням структури документа.

docTR широко використовується для оцифрування документів, автоматизованого витягування даних і програм розпізнавання тексту на основі ШІ. Підтримує кілька мов, розпізнавання рукописного введення та прискорення GPU для покращення продуктивності.

Ключові можливості API docTR

Розширене OCR на глибокому навчанні: Використовує нейронні мережі для точного виявлення та розпізнавання тексту
Підтримка кількох форматів: Працює зі зображеннями, PDF та сканованими документами
Розпізнавання рукописного тексту: Виявляє та витягує рукописний текст з високою точністю
Багатомовне розпізнавання: Підтримує різні мови та системи письма
Оптимізовано для швидкості: Ефективне витягування тексту з прискоренням GPU
Зберігає структуру документа: Зберігає макет під час розпізнавання тексту
Масштабований та з відкритим кодом: Безкоштовний у використанні та постійно вдосконалюється

Початок роботи з API docTR

Щоб встановити docTR, використовуйте наступну команду pip:

Встановити docTR


pip install python-doctr

Якщо ви хочете увімкнути прискорення GPU для швидшої обробки, встановіть додаткові залежності:

Встановити залежності GPU


pip install tensorflow-gpu torch torchvision

Приклади коду для витягування тексту за допомогою API docTR

Нижче наведено кілька прикладів витягування тексту зі зображень і документів за допомогою docTR.

API docTR для OCR

Приклад 1: Витягнення тексту з зображення

Цей приклад демонструє, як завантажити зображення, застосувати OCR за допомогою docTR і витягти текст. Витягнутий текст містить своє розташування на зображенні, що є корисним для структурованого оброблення документів.

Витягти текст з зображення


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Приклад 2: Обробка багатосторінкового PDF-документа

Якщо вам потрібно витягти текст із PDF-файлу, що містить кілька сторінок, docTR спрощує цей процес. Наступний приклад показує, як ефективно витягувати текст з кожної сторінки.

Витягти текст з PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Приклад 3: Розпізнавання рукописного тексту

docTR також може розпізнавати рукописний текст, що робить його ідеальним для оцифрування рукописних нотаток, форм або історичних документів. Цей приклад демонструє витягування тексту з синтетичного рукописного документа.

Витягти рукописний текст


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Висновок

API docTR — це потужне рішення OCR на основі глибокого навчання, яке спрощує витягування тексту зі зображень, PDF-файлів і рукописних документів. Воно забезпечує високу точність при збереженні структури документа, що робить його цінним інструментом для обробки документів на основі ШІ, автоматизації та витягування даних.

Незалежно від того, чи працюєте ви над оцифруванням документів, автоматизованим введенням даних або розпізнаванням тексту на основі ШІ, docTR надає гнучке та ефективне рішення, адаптоване до ваших потреб.