trOCR: Merevolusi Pengenalan Teks dengan Transformer

Capai akurasi setara manusia dalam ekstraksi teks dari konten tercetak, tulisan tangan, dan multibahasa.

Apa itu API trOCR?

trOCR (Optical Character Recognition berbasis Transformer) adalah model OCR terobosan dari Microsoft yang memanfaatkan kekuatan arsitektur transformer untuk memberikan akurasi tak tertandingi dalam pengenalan teks. Berbeda dengan sistem OCR konvensional yang hanya mengandalkan jaringan konvolusional, trOCR menggabungkan vision transformers (ViTs) dengan pemodelan sequence-to-sequence, memungkinkannya memahami konteks dan hubungan spasial dalam teks - bahkan untuk input menantang seperti catatan tulisan tangan, pindaian resolusi rendah, atau skrip kompleks.

Keunggulan utama trOCR:

Pengenalan mirip manusia: Unggul dalam membaca tulisan tangan dan teks terdistorsi
Dukungan multibahasa: Model pra-latih untuk bahasa Inggris, Prancis, Jerman, dan lainnya
Proses terpadu: Menggabungkan deteksi dan pengenalan teks
Integrasi mudah: Dibangun di atas library Transformers Hugging Face

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Mengapa Memilih trOCR?

15-20% lebih akurat dibanding model berbasis CNN
Akurasi di atas 90% untuk teks tulisan tangan
Prapemrosesan minimal: Tangguh terhadap variasi font, orientasi, dan noise
Pemrosesan efisien: Dioptimalkan untuk GPU

Instalasi

trOCR memerlukan PyTorch atau TensorFlow dan library Hugging Face Transformers:

Instal dengan PyTorch (GPU direkomendasikan)


pip install transformers torch torchvision
pip install datasets  # Opsional untuk fine-tuning

Catatan: Model microsoft/trocr-base membutuhkan ~1.5GB ruang disk per varian (cetak/tulisan tangan). Pastikan penyimpanan dan RAM mencukupi (8GB+ untuk pemrosesan batch).

Contoh Kode

Pengenalan Teks Tulisan Tangan

Pengenalan tulisan tangan


from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

image = Image.open("catatan_tangan.jpg").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(f"Teks yang diekstrak: {text}")

Pemrosesan Dokumen Cetak

Ekstraksi teks cetak


from transformers import pipeline
from PIL import Image

ocr = pipeline("image-to-text", model="microsoft/trocr-base-printed")
image = Image.open("dokumen.png").convert("RGB")
results = ocr(image)

for item in results:
    print(item['generated_text'])