โซลูชัน OCR ด้วยการเรียนรู้เชิงลึกใน Python

ใช้ docTR เพื่อดึงและรู้จำข้อความจากภาพด้วยความแม่นยำ

docTR API สำหรับ Python คืออะไร?

docTR (Document Text Recognition) เป็นไลบรารีโอเพนซอร์สสำหรับการรู้จำตัวอักษรด้วยแสง (OCR) ด้วยการเรียนรู้เชิงลึกสำหรับ Python ให้ความสามารถในการตรวจจับและรู้จำข้อความระดับสูงสำหรับเอกสารที่สแกน ภาพ และไฟล์ PDF ด้วยสถาปัตยกรรมการเรียนรู้เชิงลึกสมัยใหม่ docTR รองรับความแม่นยำและประสิทธิภาพสูงในการดึงข้อความ พร้อมรักษาโครงสร้างเอกสาร

docTR ถูกใช้งานอย่างกว้างขวางสำหรับการแปลงเอกสารเป็นดิจิทัล การดึงข้อมูลอัตโนมัติ และแอปพลิเคชันรู้จำข้อความด้วย AI รองรับหลายภาษา การรู้จำลายมือเขียน และการเร่งความเร็วด้วย GPU

คุณสมบัติหลักของ docTR API

OCR ด้วยการเรียนรู้เชิงลึกขั้นสูง: ใช้เครือข่ายประสาทเทียมสำหรับการตรวจจับและรู้จำข้อความที่แม่นยำ
รองรับหลายรูปแบบ: ทำงานได้กับภาพ PDF และเอกสารที่สแกน
การรู้จำลายมือเขียน: ตรวจจับและดึงข้อความลายมือเขียนด้วยความแม่นยำสูง
การรู้จำหลายภาษา: รองรับภาษาต่างๆ และระบบการเขียน
ปรับแต่งเพื่อความเร็ว: ดึงข้อความอย่างมีประสิทธิภาพด้วยการเร่งความเร็ว GPU
รักษาโครงสร้างเอกสาร: รักษาโครงสร้างระหว่างการรู้จำข้อความ
ขยายขนาดได้และโอเพนซอร์ส: ใช้ฟรีและมีการพัฒนาอย่างต่อเนื่อง

เริ่มต้นใช้งาน docTR API

ติดตั้ง docTR ด้วยคำสั่ง pip ต่อไปนี้:

ติดตั้ง docTR


pip install python-doctr

หากต้องการเปิดใช้งานการเร่งความเร็ว GPU สำหรับการประมวลผลที่เร็วขึ้น ให้ติดตั้ง dependencies เพิ่มเติม:

ติดตั้ง GPU dependencies


pip install tensorflow-gpu torch torchvision

ตัวอย่างโค้ดการดึงข้อความด้วย docTR API

ด้านล่างนี้เป็นตัวอย่างการดึงข้อความจากภาพและเอกสารโดยใช้ docTR

docTR API สำหรับ OCR

ตัวอย่าง 1: ดึงข้อความจากภาพ

ตัวอย่างนี้แสดงวิธีการโหลดภาพ ใช้ OCR ด้วย docTR และดึงข้อความ ข้อความที่ได้จะรวมถึงตำแหน่งในภาพ ซึ่งมีประโยชน์สำหรับการประมวลผลเอกสารที่มีโครงสร้าง

ดึงข้อความจากภาพ


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

ตัวอย่าง 2: ประมวลผลเอกสาร PDF หลายหน้า

หากคุณต้องการดึงข้อความจากไฟล์ PDF ที่มีหลายหน้า docTR ช่วยทำให้กระบวนการนี้ง่ายขึ้น ตัวอย่างต่อไปนี้แสดงวิธีดึงข้อความจากแต่ละหน้าอย่างมีประสิทธิภาพ

ดึงข้อความจาก PDF


from doctr.io import DocumentFile
from doctr.models import ocr_predictor

doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

ตัวอย่าง 3: รู้จำข้อความลายมือเขียน

docTR ยังสามารถรู้จำข้อความลายมือเขียนได้ เหมาะสำหรับการแปลงโน้ตลายมือเขียน แบบฟอร์ม หรือเอกสารเก่าให้เป็นดิจิทัล ตัวอย่างนี้แสดงการดึงข้อความจากเอกสารลายมือเขียนสังเคราะห์

ดึงข้อความลายมือเขียน


from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents

doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())

สรุป

docTR API เป็นโซลูชัน OCR ที่ทรงพลังด้วยการเรียนรู้เชิงลึก ช่วยให้การดึงข้อความจากภาพ ไฟล์ PDF และเอกสารลายมือเขียนทำได้ง่ายขึ้น รองรับความแม่นยำสูงในขณะที่รักษาโครงสร้างเอกสาร ทำให้เป็นเครื่องมือที่มีค่าสำหรับการประมวลผลเอกสารด้วย AI การทำงานอัตโนมัติ และการดึงข้อมูล

ไม่ว่าคุณจะทำงานเกี่ยวกับการแปลงเอกสารเป็นดิจิทัล การป้อนข้อมูลอัตโนมัติ หรือการรู้จำข้อความด้วย AI docTR มีโซลูชันที่ยืดหยุ่นและมีประสิทธิภาพที่ปรับให้เหมาะกับความต้องการของคุณ