Saluran OCR Lengkap dengan Keras dan TensorFlow

Gunakan Keras-OCR untuk pengenalan teks mudah tetapi berkuasa dalam Python.

Apa itu API Keras-OCR?

Keras-OCR ialah perpustakaan Python sumber terbuka peringkat tinggi yang direka untuk memudahkan tugas pengenalpastian aksara optik (OCR) menggunakan kuasa Keras dan TensorFlow. Berbeza dengan sistem OCR tradisional yang memerlukan konfigurasi meluas, Keras-OCR menawarkan saluran lengkap dengan model pra-latihan untuk pengesanan teks (menggunakan algoritma CRAFT) dan pengenalan teks (melalui model CRNN). Gabungan ini membolehkan pembangun mengekstrak teks daripada imej, dokumen yang diimbas atau nota tulisan tangan dengan hanya beberapa baris kod.

Perpustakaan ini dioptimumkan untuk kes penggunaan sebenar termasuk:

Pendigitalan dokumen: Tukar dokumen kertas atau PDF kepada teks yang boleh dicari
Kemasukan data automatik: Ekstrak teks daripada invois, resit atau borang
Alat kebolehcapaian: Hasilkan teks alternatif untuk imej dalam aplikasi web
Analisis media sosial: Proses teks tersemat dalam meme atau kandungan pengguna

Dengan sokongan terbina dalam untuk pemprosesan kelompok dan pecutan GPU pilihan, Keras-OCR mengimbangi kemudahan penggunaan dengan prestasi, menjadikannya sesuai untuk prototaip dan pelaksanaan pengeluaran.

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Ciri Utama Keras-OCR

Model pra-latihan: Termasuk CRAFT (pengesan) dan CRNN (pengenal) untuk penggunaan segera
Penyediaan mudah: Kebergantungan minimum (Keras, TensorFlow, OpenCV)
Pemprosesan kelompok: Proses berbilang imej selari untuk kecekapan
Latihan tersuai: Sesuaikan model dengan set data anda sendiri
GPU tidak diperlukan: Berfungsi pada CPU tetapi lebih pantas dengan GPU
Output kotak sempadan: Mengembalikan teks dengan koordinat untuk analisis spatial
Sumber terbuka: Percuma, dikendalikan komuniti dan berlesen MIT

Pemasangan

Pasang Keras-OCR melalui pip (memerlukan Python 3.6+):

Pasang Keras-OCR


pip install keras-ocr

Untuk sokongan GPU, pastikan TensorFlow dengan GPU dipasang:

Pasang TensorFlow GPU


pip install tensorflow-gpu

Contoh Kod

Berikut adalah contoh praktikal untuk mengekstrak teks daripada imej menggunakan Keras-OCR.

Pengesanan teks Keras-OCR

Contoh 1: Pengesanan dan Pengenalan Teks Asas

Contoh ini menunjukkan cara menggunakan saluran pra-latihan untuk mengekstrak teks daripada imej:

Saluran OCR Asas


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["receipt.jpg"]
predictions = pipeline.recognize(images)
print(predictions)

Contoh 2: Pemprosesan Kelompok

Proses berbilang imej sekaligus untuk kecekapan:

Pemprosesan Kelompok


import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
images = ["image1.jpg", "image2.jpg", "image3.jpg"]
batch_predictions = pipeline.recognize(images)
for prediction in batch_predictions:
    print(prediction)

Contoh 3: Visualisasi Kotak Sempadan

Lukis kotak teks yang dikesan pada imej asal:

Visualisasi Hasil


import matplotlib.pyplot as plt
import keras_ocr

pipeline = keras_ocr.pipeline.Pipeline()
image = keras_ocr.tools.read("document.jpg")
predictions = pipeline.recognize([image])
keras_ocr.tools.drawAnnotations(image, predictions[0])
plt.imshow(image)
plt.show()

Kesimpulan

Keras-OCR memudahkan pengekstrakan teks dengan saluran sedia guna, menjadikannya pilihan tepat untuk pembangun yang memerlukan OCR pantas dan tepat tanpa konfigurasi kompleks. Integrasinya dengan Keras dan TensorFlow membolehkan penyesuaian, manakala pemprosesan kelompok memastikan skalabiliti.

Sama ada anda membina pengimbas dokumen, mengautomasikan kemasukan data atau menganalisis kandungan media sosial, Keras-OCR menyediakan penyelesaian ringan tetapi berkuasa.