โซลูชัน OCR ด้วยการเรียนรู้เชิงลึกใน Python
ใช้ docTR เพื่อดึงและรู้จำข้อความจากภาพด้วยความแม่นยำ
docTR API สำหรับ Python คืออะไร?
docTR (Document Text Recognition) เป็นไลบรารีโอเพนซอร์สสำหรับการรู้จำตัวอักษรด้วยแสง (OCR) ด้วยการเรียนรู้เชิงลึกสำหรับ Python ให้ความสามารถในการตรวจจับและรู้จำข้อความระดับสูงสำหรับเอกสารที่สแกน ภาพ และไฟล์ PDF ด้วยสถาปัตยกรรมการเรียนรู้เชิงลึกสมัยใหม่ docTR รองรับความแม่นยำและประสิทธิภาพสูงในการดึงข้อความ พร้อมรักษาโครงสร้างเอกสาร
docTR ถูกใช้งานอย่างกว้างขวางสำหรับการแปลงเอกสารเป็นดิจิทัล การดึงข้อมูลอัตโนมัติ และแอปพลิเคชันรู้จำข้อความด้วย AI รองรับหลายภาษา การรู้จำลายมือเขียน และการเร่งความเร็วด้วย GPU
คุณสมบัติหลักของ docTR API
- OCR ด้วยการเรียนรู้เชิงลึกขั้นสูง: ใช้เครือข่ายประสาทเทียมสำหรับการตรวจจับและรู้จำข้อความที่แม่นยำ
- รองรับหลายรูปแบบ: ทำงานได้กับภาพ PDF และเอกสารที่สแกน
- การรู้จำลายมือเขียน: ตรวจจับและดึงข้อความลายมือเขียนด้วยความแม่นยำสูง
- การรู้จำหลายภาษา: รองรับภาษาต่างๆ และระบบการเขียน
- ปรับแต่งเพื่อความเร็ว: ดึงข้อความอย่างมีประสิทธิภาพด้วยการเร่งความเร็ว GPU
- รักษาโครงสร้างเอกสาร: รักษาโครงสร้างระหว่างการรู้จำข้อความ
- ขยายขนาดได้และโอเพนซอร์ส: ใช้ฟรีและมีการพัฒนาอย่างต่อเนื่อง
เริ่มต้นใช้งาน docTR API
ติดตั้ง docTR ด้วยคำสั่ง pip ต่อไปนี้:
ติดตั้ง docTR
pip install python-doctr
หากต้องการเปิดใช้งานการเร่งความเร็ว GPU สำหรับการประมวลผลที่เร็วขึ้น ให้ติดตั้ง dependencies เพิ่มเติม:
ติดตั้ง GPU dependencies
pip install tensorflow-gpu torch torchvision
ตัวอย่างโค้ดการดึงข้อความด้วย docTR API
ด้านล่างนี้เป็นตัวอย่างการดึงข้อความจากภาพและเอกสารโดยใช้ docTR
ตัวอย่าง 1: ดึงข้อความจากภาพ
ตัวอย่างนี้แสดงวิธีการโหลดภาพ ใช้ OCR ด้วย docTR และดึงข้อความ ข้อความที่ได้จะรวมถึงตำแหน่งในภาพ ซึ่งมีประโยชน์สำหรับการประมวลผลเอกสารที่มีโครงสร้าง
ดึงข้อความจากภาพ
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_images("sample.png")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ตัวอย่าง 2: ประมวลผลเอกสาร PDF หลายหน้า
หากคุณต้องการดึงข้อความจากไฟล์ PDF ที่มีหลายหน้า docTR ช่วยทำให้กระบวนการนี้ง่ายขึ้น ตัวอย่างต่อไปนี้แสดงวิธีดึงข้อความจากแต่ละหน้าอย่างมีประสิทธิภาพ
ดึงข้อความจาก PDF
from doctr.io import DocumentFile
from doctr.models import ocr_predictor
doc = DocumentFile.from_pdf("sample.pdf")
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
ตัวอย่าง 3: รู้จำข้อความลายมือเขียน
docTR ยังสามารถรู้จำข้อความลายมือเขียนได้ เหมาะสำหรับการแปลงโน้ตลายมือเขียน แบบฟอร์ม หรือเอกสารเก่าให้เป็นดิจิทัล ตัวอย่างนี้แสดงการดึงข้อความจากเอกสารลายมือเขียนสังเคราะห์
ดึงข้อความลายมือเขียน
from doctr.models import ocr_predictor
from doctr.datasets import synthetic_documents
doc = synthetic_documents()[0]
model = ocr_predictor(pretrained=True)
result = model(doc)
print(result.export())
สรุป
docTR API เป็นโซลูชัน OCR ที่ทรงพลังด้วยการเรียนรู้เชิงลึก ช่วยให้การดึงข้อความจากภาพ ไฟล์ PDF และเอกสารลายมือเขียนทำได้ง่ายขึ้น รองรับความแม่นยำสูงในขณะที่รักษาโครงสร้างเอกสาร ทำให้เป็นเครื่องมือที่มีค่าสำหรับการประมวลผลเอกสารด้วย AI การทำงานอัตโนมัติ และการดึงข้อมูล
ไม่ว่าคุณจะทำงานเกี่ยวกับการแปลงเอกสารเป็นดิจิทัล การป้อนข้อมูลอัตโนมัติ หรือการรู้จำข้อความด้วย AI docTR มีโซลูชันที่ยืดหยุ่นและมีประสิทธิภาพที่ปรับให้เหมาะกับความต้องการของคุณ