Solusi OCR Berbasis Deep Learning dengan Python

Manfaatkan docTR untuk ekstraksi dan pengenalan teks yang akurat dari gambar.

Apa itu docTR API untuk Python?

docTR (Document Text Recognition) adalah library Optical Character Recognition (OCR) berbasis deep learning open source dengan Python. Menyediakan deteksi dan pengenalan teks mutakhir untuk dokumen yang dipindai, gambar, dan PDF. Dengan memanfaatkan arsitektur deep learning modern, docTR memastikan akurasi dan efisiensi tinggi dalam mengekstraksi teks sekaligus mempertahankan struktur dokumen.

docTR banyak digunakan untuk digitalisasi dokumen, ekstraksi data otomatis, dan aplikasi pengenalan teks berbasis AI. Mendukung berbagai bahasa, pengenalan tulisan tangan, dan akselerasi GPU untuk peningkatan performa.

Fitur Utama docTR API

OCR Deep Learning Canggih: Menggunakan neural network untuk deteksi dan pengenalan teks yang presisi.
Dukungan Multi-Format: Bekerja lancar dengan gambar, PDF, dan dokumen yang dipindai.
Pengenalan Tulisan Tangan: Mendeteksi dan mengekstrak teks tulisan tangan dengan akurasi tinggi.
Pengenalan Multi-Bahasa: Mendukung berbagai bahasa dan aksara.
Dioptimalkan untuk Kecepatan: Ekstraksi teks efisien dengan akselerasi GPU.
Mempertahankan Tata Letak Dokumen: Mempertahankan struktur selama proses pengenalan teks.
Skalabel dan Open Source: Gratis digunakan dan terus dikembangkan untuk penyempurnaan.

Memulai dengan docTR API

Untuk menginstal docTR, gunakan perintah pip berikut:

Instal docTR


pip install python-doctr

Jika ingin mengaktifkan akselerasi GPU untuk pemrosesan lebih cepat, instal dependensi tambahan:

Instal dependensi GPU


pip install tensorflow-gpu torch torchvision

Contoh Kode untuk Ekstraksi Teks Menggunakan docTR API

Berikut beberapa contoh ekstraksi teks dari gambar dan dokumen menggunakan docTR.

docTR API untuk OCR

Contoh 1: Mengekstrak Teks dari Gambar

Contoh ini menunjukkan cara memuat gambar, menerapkan OCR dengan docTR, dan mengekstrak teks. Teks yang diekstrak mencakup posisinya dalam gambar, berguna untuk pemrosesan dokumen terstruktur.

Ekstrak Teks dari Gambar


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Contoh 2: Memproses Dokumen PDF Multi-Halaman

Jika perlu mengekstrak teks dari file PDF berisi banyak halaman, docTR menyederhanakan prosesnya. Contoh berikut menunjukkan cara mengekstrak teks dari setiap halaman secara efisien.

Ekstrak Teks dari PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Contoh 3: Mengenali Teks Tulisan Tangan

docTR juga bisa mengenali teks tulisan tangan, ideal untuk digitalisasi catatan tulisan tangan, formulir, atau dokumen sejarah. Contoh ini menunjukkan ekstraksi teks dari dokumen tulisan tangan sintetis.

Ekstrak Teks Tulisan Tangan


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Kesimpulan

docTR API adalah solusi OCR berbasis deep learning yang powerful untuk ekstraksi teks dari gambar, PDF, dan dokumen tulisan tangan. Memastikan akurasi tinggi sambil mempertahankan struktur dokumen, menjadikannya alat penting untuk pemrosesan dokumen berbasis AI, otomatisasi, dan ekstraksi data.

Baik untuk digitalisasi dokumen, entri data otomatis, atau pengenalan teks berbasis AI, docTR menyediakan solusi fleksibel dan efisien yang disesuaikan dengan kebutuhan Anda.