Penyelesaian OCR Berasaskan Pembelajaran Mendalam dalam Python

Manfaatkan docTR untuk pengekstrakan dan pengenalpastian teks yang tepat daripada imej.

Apakah API docTR untuk Python?

docTR (Document Text Recognition) ialah pustaka Pengenalpastian Aksara Optik (OCR) sumber terbuka berasaskan pembelajaran mendalam untuk Python. Ia menyediakan pengesanan dan pengenalan teks terkini untuk dokumen yang diimbas, imej dan PDF. Dengan memanfaatkan seni bina pembelajaran mendalam moden, docTR memastikan ketepatan dan kecekapan tinggi dalam mengekstrak teks sambil mengekalkan struktur dokumen.

docTR digunakan secara meluas untuk pendigitalan dokumen, pengekstrakan data automatik dan aplikasi pengenalan teks berasaskan AI. Ia menyokong pelbagai bahasa, pengenalan tulisan tangan dan pecutan GPU untuk prestasi yang lebih baik.

Ciri Utama API docTR

OCR Pembelajaran Mendalam Lanjutan: Menggunakan rangkaian neural untuk pengesanan dan pengenalan teks yang tepat
Sokongan Pelbagai Format: Berfungsi dengan lancar dengan imej, PDF dan dokumen yang diimbas
Pengenalan Tulisan Tangan: Mengesan dan mengekstrak teks tulisan tangan dengan ketepatan yang tinggi
Pengenalan Pelbagai Bahasa: Menyokong pelbagai bahasa dan skrip
Dioptimumkan untuk Kelajuan: Pengekstrakan teks yang cekap dengan pecutan GPU
Mengekalkan Susun Atur Dokumen: Mengekalkan struktur semasa pengenalan teks
Boleh Skala dan Sumber Terbuka: Percuma untuk digunakan dan sentiasa dikemas kini untuk penambahbaikan berterusan

Memulakan dengan API docTR

Untuk memasang docTR, gunakan arahan pip berikut:

Pasang docTR


pip install python-doctr

Jika anda ingin membolehkan pecutan GPU untuk pemprosesan yang lebih pantas, pasang kebergantungan tambahan:

Pasang Kebergantungan GPU


pip install tensorflow-gpu torch torchvision

Contoh Kod untuk Pengekstrakan Teks Menggunakan API docTR

Berikut adalah beberapa contoh yang menunjukkan pengekstrakan teks daripada imej dan dokumen menggunakan docTR.

API docTR untuk OCR

Contoh 1: Mengekstrak Teks daripada Imej

Contoh ini menunjukkan cara memuatkan imej, menggunakan OCR dengan docTR dan mengekstrak teks. Teks yang diekstrak termasuk kedudukannya dalam imej, menjadikannya berguna untuk pemprosesan dokumen berstruktur.

Ekstrak Teks daripada Imej


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Contoh 2: Memproses Dokumen PDF Berbilang Halaman

Jika anda perlu mengekstrak teks daripada fail PDF yang mengandungi berbilang halaman, docTR memudahkan proses tersebut. Contoh di bawah menunjukkan cara mengekstrak teks daripada setiap halaman dengan cekap.

Ekstrak Teks daripada PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Contoh 3: Mengenali Teks Tulisan Tangan

docTR juga boleh mengenali teks tulisan tangan, menjadikannya sesuai untuk pendigitalan nota tulisan tangan, borang atau dokumen sejarah. Contoh ini menunjukkan pengekstrakan teks daripada dokumen tulisan tangan sintetik.

Ekstrak Teks Tulisan Tangan


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

Kesimpulan

API docTR ialah penyelesaian OCR berasaskan pembelajaran mendalam yang berkuasa yang memudahkan pengekstrakan teks daripada imej, PDF dan dokumen tulisan tangan. Ia memastikan ketepatan yang tinggi sambil mengekalkan struktur dokumen, menjadikannya alat yang berharga untuk pemprosesan dokumen berasaskan AI, automasi dan pengekstrakan data.

Sama ada anda bekerja pada pendigitalan dokumen, kemasukan data automatik atau pengenalan teks berasaskan AI, docTR menyediakan penyelesaian yang fleksibel dan cekap yang disesuaikan dengan keperluan anda.