Python'da Derin Öğrenme Tabanlı OCR Çözümü

Görsellerden hassas metin çıkarma ve tanıma için docTR'yi kullanın

Python için docTR API nedir?

docTR (Document Text Recognition), Python için derin öğrenme tabanlı açık kaynak bir Optik Karakter Tanıma (OCR) kütüphanesidir. Taranmış belgeler, görseller ve PDF'ler için gelişmiş metin algılama ve tanıma özellikleri sunar. Modern derin öğrenme mimarilerini kullanarak docTR, belge yapısını korurken yüksek doğruluk ve verimlilik sağlar.

docTR, belge dijitalleştirme, otomatik veri çıkarma ve AI tabanlı metin tanıma uygulamalarında yaygın olarak kullanılır. Çoklu dil desteği, el yazısı tanıma ve daha iyi performans için GPU hızlandırma özelliklerini destekler.

docTR API Temel Özellikleri

Gelişmiş derin öğrenme OCR: Hassas metin algılama ve tanıma için sinir ağları kullanır
Çoklu format desteği: Görseller, PDF'ler ve taranmış belgelerle sorunsuz çalışır
El yazısı tanıma: Yüksek doğrulukla el yazısı metinleri algılar ve çıkarır
Çok dilli tanıma: Çeşitli dilleri ve yazı sistemlerini destekler
Hız için optimize edilmiş: GPU hızlandırma ile verimli metin çıkarma
Belge düzenini korur: Metin tanıma sırasında yapıyı muhafaza eder
Ölçeklenebilir ve açık kaynak: Ücretsiz kullanım ve sürekli geliştirme

docTR API'ye Başlarken

docTR'yi kurmak için aşağıdaki pip komutunu kullanın:

docTR'yi kurun


pip install python-doctr

Daha hızlı işlem için GPU hızlandırmayı etkinleştirmek isterseniz, ek bağımlılıkları kurun:

GPU bağımlılıklarını kurun


pip install tensorflow-gpu torch torchvision

docTR API ile Metin Çıkarma Kod Örnekleri

Aşağıda docTR kullanarak görsellerden ve belgelerden metin çıkarmayı gösteren çeşitli örnekler bulunmaktadır.

OCR için docTR API

Örnek 1: Görselden Metin Çıkarma

Bu örnek, bir görsel yükleme, docTR ile OCR uygulama ve metin çıkarma işlemini gösterir. Çıkarılan metin, görsel içindeki konumunu içerir ve yapılandırılmış belge işleme için kullanışlıdır.

Görselden metin çıkar


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Örnek 2: Çok Sayfalı PDF Belgesi İşleme

Çok sayfalı bir PDF dosyasından metin çıkarmanız gerekiyorsa, docTR bu süreci basitleştirir. Aşağıdaki örnek, her sayfadan verimli bir şekilde metin çıkarmayı gösterir.

PDF'den metin çıkar


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Örnek 3: El Yazısı Metin Tanıma

docTR ayrıca el yazısı metinleri tanıyabilir, bu da el yazısı notların, formların veya tarihi belgelerin dijitalleştirilmesi için idealdir. Bu örnek, sentetik bir el yazısı belgeden metin çıkarmayı gösterir.

El yazısı metin çıkar


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Sonuç

docTR API, görsellerden, PDF'lerden ve el yazısı belgelerden metin çıkarmayı kolaylaştıran güçlü bir derin öğrenme tabanlı OCR çözümüdür. Belge yapısını korurken yüksek doğruluk sağlar ve AI tabanlı belge işleme, otomasyon ve veri çıkarma için değerli bir araçtır.

İster belge dijitalleştirme, ister otomatik veri girişi veya AI tabanlı metin tanıma üzerinde çalışıyor olun, docTR ihtiyaçlarınıza uygun esnek ve verimli bir çözüm sunar.