Python'da Derin Öğrenme Tabanlı OCR Çözümü
Görsellerden hassas metin çıkarma ve tanıma için docTR'yi kullanın
Python için docTR API nedir?
docTR (Document Text Recognition), Python için derin öğrenme tabanlı açık kaynak bir Optik Karakter Tanıma (OCR) kütüphanesidir. Taranmış belgeler, görseller ve PDF'ler için gelişmiş metin algılama ve tanıma özellikleri sunar. Modern derin öğrenme mimarilerini kullanarak docTR, belge yapısını korurken yüksek doğruluk ve verimlilik sağlar.
docTR, belge dijitalleştirme, otomatik veri çıkarma ve AI tabanlı metin tanıma uygulamalarında yaygın olarak kullanılır. Çoklu dil desteği, el yazısı tanıma ve daha iyi performans için GPU hızlandırma özelliklerini destekler.
docTR API Temel Özellikleri
- Gelişmiş derin öğrenme OCR: Hassas metin algılama ve tanıma için sinir ağları kullanır
- Çoklu format desteği: Görseller, PDF'ler ve taranmış belgelerle sorunsuz çalışır
- El yazısı tanıma: Yüksek doğrulukla el yazısı metinleri algılar ve çıkarır
- Çok dilli tanıma: Çeşitli dilleri ve yazı sistemlerini destekler
- Hız için optimize edilmiş: GPU hızlandırma ile verimli metin çıkarma
- Belge düzenini korur: Metin tanıma sırasında yapıyı muhafaza eder
- Ölçeklenebilir ve açık kaynak: Ücretsiz kullanım ve sürekli geliştirme
docTR API'ye Başlarken
docTR'yi kurmak için aşağıdaki pip komutunu kullanın:
docTR'yi kurun
pip install python-doctr
Daha hızlı işlem için GPU hızlandırmayı etkinleştirmek isterseniz, ek bağımlılıkları kurun:
GPU bağımlılıklarını kurun
pip install tensorflow-gpu torch torchvision
docTR API ile Metin Çıkarma Kod Örnekleri
Aşağıda docTR kullanarak görsellerden ve belgelerden metin çıkarmayı gösteren çeşitli örnekler bulunmaktadır.
Örnek 1: Görselden Metin Çıkarma
Bu örnek, bir görsel yükleme, docTR ile OCR uygulama ve metin çıkarma işlemini gösterir. Çıkarılan metin, görsel içindeki konumunu içerir ve yapılandırılmış belge işleme için kullanışlıdır.
Görselden metin çıkar
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Örnek 2: Çok Sayfalı PDF Belgesi İşleme
Çok sayfalı bir PDF dosyasından metin çıkarmanız gerekiyorsa, docTR bu süreci basitleştirir. Aşağıdaki örnek, her sayfadan verimli bir şekilde metin çıkarmayı gösterir.
PDF'den metin çıkar
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Örnek 3: El Yazısı Metin Tanıma
docTR ayrıca el yazısı metinleri tanıyabilir, bu da el yazısı notların, formların veya tarihi belgelerin dijitalleştirilmesi için idealdir. Bu örnek, sentetik bir el yazısı belgeden metin çıkarmayı gösterir.
El yazısı metin çıkar
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
Sonuç
docTR API, görsellerden, PDF'lerden ve el yazısı belgelerden metin çıkarmayı kolaylaştıran güçlü bir derin öğrenme tabanlı OCR çözümüdür. Belge yapısını korurken yüksek doğruluk sağlar ve AI tabanlı belge işleme, otomasyon ve veri çıkarma için değerli bir araçtır.
İster belge dijitalleştirme, ister otomatik veri girişi veya AI tabanlı metin tanıma üzerinde çalışıyor olun, docTR ihtiyaçlarınıza uygun esnek ve verimli bir çözüm sunar.