PaddleOCR: OCR Kelas Industri untuk Ekstraksi Teks Multibahasa

Deteksi dan kenali teks dari gambar dan dokumen dengan presisi dan kecepatan tinggi.

Apa itu PaddleOCR API?

PaddleOCR Python API adalah toolkit yang powerful dan mudah digunakan untuk tugas pengenalan karakter optik (OCR), dirancang untuk membantu pengembang mengekstrak dan menganalisis teks dari gambar dengan akurasi tinggi. Dibangun di atas framework deep learning PaddlePaddle, PaddleOCR mendukung berbagai macam bahasa dan menampilkan model pra-latih untuk deteksi teks, pengenalan, dan analisis tata letak. Dengan antarmuka Python yang intuitif, pengguna dapat dengan cepat mengintegrasikan kemampuan OCR ke dalam aplikasi mereka, baik untuk digitalisasi dokumen, ekstraksi teks dari foto, atau pemrosesan data otomatis. PaddleOCR Python API ideal bagi siapa saja yang ingin mengimplementasikan solusi OCR yang tangguh dengan penyiapan minimal dan fleksibilitas maksimal.

Keunggulan utama PaddleOCR:

Dukungan multibahasa: Model pra-latih untuk 100+ bahasa (termasuk Cina, Inggris, Arab, dll.)
Akurasi tinggi: Model seri PP-OCR mencapai benchmark terbaik di dataset ICDAR
Pipeline lengkap: Dari deteksi teks hingga pengenalan dan analisis tata letak
Model ringan: Dioptimalkan untuk perangkat mobile dan edge (mis. PP-OCRv3)

Dari dokumen pindai hingga rambu jalan, PaddleOCR mengekstrak teks dengan presisi terdepan di industri.

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Mengapa Memilih PaddleOCR?

Keunggulan open-source: 30,000+ bintang GitHub dan kontribusi komunitas aktif
Implementasi serbaguna: Mendukung Python, C++, dan platform mobile (Android/iOS)
Analisis tata letak: Mengidentifikasi area teks, tabel, dan gambar dalam dokumen kompleks
Pembaruan berkala: Rilis model rutin (mis. PP-OCRv4)
Ramah komersial: Lisensi Apache 2.0 untuk penggunaan perusahaan

Instalasi

PaddleOCR membutuhkan Python 3.7+ dan dapat diinstal via pip. Dukungan GPU memerlukan CUDA/cuDNN.

Instalasi Dasar


pip install paddleocr paddlepaddle  #Versi CPU

Untuk akselerasi GPU:

Dukungan GPU


pip install paddleocr paddlepaddle-gpu  #Membutuhkan CUDA 10.2+

Catatan: Model pra-latih akan otomatis diunduh saat pertama digunakan atau manual via paddleocr --lang en.

Contoh Kode

Jelajahi kemampuan PaddleOCR dengan contoh-contoh ini. Semua mengasumsikan Anda telah menginstal model bahasa Inggris.

PaddleOCR Python

Contoh 1: OCR Dasar

Untuk mengekstrak teks dari gambar menggunakan PaddleOCR dengan model default, Anda hanya perlu menginisialisasi mesin OCR dengan konfigurasi standar, yang mencakup dukungan untuk bahasa Inggris dan klasifikasi sudut untuk meningkatkan akurasi. PaddleOCR menggunakan model deteksi, pengenalan, dan klasifikasi pra-latih untuk mengidentifikasi dan menginterpretasikan teks dari gambar input. Setelah gambar diproses, mesin OCR mengembalikan teks yang terdeteksi beserta posisinya dan skor kepercayaan untuk setiap hasil. Pengaturan ini memberikan cara cepat dan efisien untuk mengekstrak konten teks dari gambar tanpa memerlukan pelatihan model khusus atau konfigurasi kompleks.

OCR Gambar


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Inisialisasi
result = ocr.ocr('image.jpg', cls=True)  # Proses gambar

# Cetak teks yang dikenali
for line in result:
    print(line[-1][0])  # Konten teks

Output mencakup:

Konten teks dan skor kepercayaan
Koordinat bounding box

Contoh 2: Pemrosesan Batch

Untuk memproses beberapa gambar secara efisien menggunakan PaddleOCR, Anda dapat memanfaatkan teknik pemrosesan batch yang meminimalkan inisialisasi berulang dan mengoptimalkan kinerja. Daripada menginisialisasi mesin OCR untuk setiap gambar, disarankan untuk membuat satu instance model OCR dan menggunakannya kembali untuk semua input gambar. Pendekatan ini secara signifikan mengurangi waktu pemrosesan dan konsumsi sumber daya. Dengan memberikan daftar path gambar ke mesin OCR dalam loop atau menggunakan pemrosesan paralel (bila sesuai), Anda dapat dengan cepat dan efektif mengekstrak teks dari kumpulan gambar besar, menjadikannya ideal untuk alur kerja yang melibatkan batch dokumen, arsip pindai, atau analisis gambar massal.

OCR Batch


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Pemrosesan paralel

Contoh 3: Analisis Tata Letak

PaddleOCR tidak hanya dapat digunakan untuk mengenali teks tetapi juga untuk mengidentifikasi area teks tertentu dan mendeteksi elemen terstruktur seperti tabel dalam gambar. Sistem pertama kali menemukan area teks melalui model deteksinya, yang menguraikan setiap wilayah teks dengan bounding box, memungkinkan pengguna memahami letak teks dalam gambar. Untuk tata letak yang lebih kompleks seperti formulir atau dokumen yang berisi tabel, PaddleOCR mendukung analisis tata letak dan pengenalan struktur tabel. Ini memungkinkan deteksi baris, kolom, dan batas sel, sehingga memungkinkan ekstraksi data tabel dalam format terorganisir. Kemampuan seperti ini sangat berguna untuk digitalisasi dokumen pindai, faktur, atau spreadsheet di mana teks bebas dan data tabel hidup berdampingan.

Deteksi Tata Letak


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Fitur Lanjutan

PaddleOCR mendukung alur kerja kompleks:

Pelatihan kustom: Sesuaikan model dengan data Anda:

Pelatihan Model


    python tools/train.py -c configs/det/det_mv3_db.yml

Pencampuran multibahasa: Proses dokumen dengan beberapa bahasa:
OCR Multibahasa
```
    ocr = PaddleOCR(lang='chinese+english')
    
```

Dukungan PDF: Ekstraksi teks langsung dari PDF:

Pemrosesan PDF


    result = ocr.ocr('document.pdf', type='pdf')

Kesimpulan

PaddleOCR menyediakan OCR siap produksi dengan dukungan multibahasa dan skalabilitas yang tak tertandingi. Ideal untuk:

Digitalisasi dokumen: PDF pindai, faktur, kwitansi
Aplikasi multibahasa: Pengenalan paspor, buku multibahasa
Implementasi edge: Aplikasi mobile dengan OCR on-device

Didukung oleh ekosistem deep learning PaddlePaddle, PaddleOCR terus menetapkan standar dalam akurasi dan efisiensi OCR.