ตัวแยกเอกสาร API สำหรับ Python

API โอเพ่นซอร์ส Python สำหรับการแยกวิเคราะห์เอกสาร

ค้นพบไลบรารี Python โอเพนซอร์สที่ออกแบบมาเพื่อวิเคราะห์และแยกข้อความ รูปภาพ และข้อมูลอื่นๆ จากรูปแบบเอกสารหลากหลาย เช่น PDF, DOC/DOCX, XLS/XLSX และ HTML เป็นต้น

API ของ Document Parser สำหรับ Python รวมถึง

docTR Python API แบบโอเพนซอร์สสำหรับการตรวจจับและรู้จำข้อความด้วยการเรียนรู้เชิงลึก

EasyOCR OCR พร้อมใช้งานระดับองค์กร รองรับกว่า 80 ภาษา พร้อมโมเดลที่ฝึกไว้ล่วงหน้าเพื่อการดึงข้อความอย่างแม่นยำ

PaddleOCR ชุดเครื่องมือ OCR ที่แข็งแกร่ง รองรับกว่า 100 ภาษา พร้อมโมเดลที่ฝึกไว้ล่วงหน้า

pdfminer.six ไลบรารี Python สำหรับวิเคราะห์ อ่าน และแยกข้อความพร้อมข้อมูลการจัดรูปแบบจากเอกสาร PDF

PyMuPDF ไลบรารีตัววิเคราะห์ PDF ในภาษา Python เพื่ออ่าน แยกวิเคราะห์ และแยกข้อความ รูปภาพ ตาราง ฯลฯ จากเอกสาร PDF

pypdf ไลบรารีตัววิเคราะห์ PDF ของ Python สำหรับอ่าน PDF และแยกข้อความ รูปภาพและไฟล์แนบจากเอกสาร PDF

PyTesseract API Python แบบโอเพนซอร์สสำหรับดึงข้อความจากรูปภาพโดยใช้ Tesseract OCR

Keras-OCR Python API ขนาดเล็กสำหรับการจดจำอักขระแบบออปติคัล (OCR) โดยใช้ Keras และ TensorFlow

trOCR โมเดล OCR แบบ Transformer สำหรับการจดจำข้อความหลายภาษาและลายมือเขียนด้วยความแม่นยำ unmatched