โอเพ่นซอร์ส Python PDF Parser Library
ลองใช้ไลบรารี Python แบบโอเพ่นซอร์สและฟรีนี้เพื่อแยกวิเคราะห์ อ่าน และแยกข้อความ รูปภาพ ตาราง และเนื้อหาอื่น ๆ จากเอกสาร PDF
PyMuPDF คืออะไร
PyMuPDF หรือที่รู้จักในชื่อ Fitz เป็นไลบรารี Python แบบโอเพ่นซอร์สที่มีชุดเครื่องมือที่ครอบคลุมสำหรับการทำงานกับไฟล์ PDF ด้วย PyMuPDF ผู้ใช้สามารถทำงานต่างๆ ได้อย่างมีประสิทธิภาพ เช่น การเปิด PDF, แยกข้อความ รูปภาพ และตาราง จัดการคุณสมบัติของหน้า เช่น การหมุนและการครอบตัด การสร้างเอกสาร PDF ใหม่ และการแปลงหน้า PDF เป็นรูปภาพ
PyMuPDF รองรับคุณสมบัติหลายประการตามรายการด้านล่าง:
- การอ่านเอกสาร PDF: PyMuPDF สามารถเปิดและอ่านเอกสาร PDF ได้ ทำให้คุณสามารถเข้าถึงข้อความ รูปภาพ และเนื้อหาอื่น ๆ ภายในเอกสารเหล่านั้นได้
- การแยกข้อความ: คุณสามารถแยกข้อความจากเอกสาร PDF รวมถึงเนื้อหาข้อความ แบบอักษร และข้อมูลเค้าโครง
- การแยกรูปภาพ: คุณสามารถแยกรูปภาพจากเอกสาร PDF ในรูปแบบต่างๆ เช่น JPEG หรือ PNG
- การแยกตาราง: คุณยังสามารถแยกตารางจากเอกสาร PDF ได้อีกด้วย
ในการทบทวนนี้ จุดสนใจหลักของเราคือคุณลักษณะการแยกและแยกวิเคราะห์ของไลบรารี สำหรับการประเมินเชิงลึกเกี่ยวกับคุณลักษณะการแยก การรวม และการจัดการหน้า โปรด คลิกที่นี่
เริ่มต้นใช้งาน PyMuPDF
คุณต้องมี Python เวอร์ชัน 3.8.0 ขึ้นไปจึงจะติดตั้งและใช้ PyMuPDF ได้ ดังนั้น ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง PyMuPDF บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.
ลินุกซ์
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
แมคโอเอส
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
หน้าต่าง
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
แยกข้อความจาก PDF
คุณสามารถใช้ไลบรารี PyMuPDF ใน Python เพื่อแยกข้อความจากเอกสาร PDF และดำเนินการวิเคราะห์ข้อความ เช่น การนับคำ เพียงใช้ฟังก์ชันที่มีให้ในไลบรารี ดังที่แสดงในโค้ดด้านล่าง:
เอาท์พุต
รูปภาพด้านล่างแสดงข้อความที่แยกออกมาและจำนวนคำในไฟล์ PDF:
แยกรูปภาพจาก PDF
เราสามารถใช้ไลบรารี PyMuPDF เพื่อแยกรูปภาพจากเอกสาร PDF ใน Python ข้อมูลโค้ดด้านล่างจะเปิดไฟล์ PDF ที่ระบุ แยกรูปภาพจาก PDF และบันทึกไว้ในไดเร็กทอรีการทำงานปัจจุบัน:
เอาท์พุต
ต่อไปนี้เป็นรูปภาพ PNG ที่แยกจากเอกสาร PDF
แยกตารางออกจาก PDF
นอกจากนี้เรายังสามารถใช้ไลบรารี PyMuPDF เพื่อประมวลผลเอกสาร PDF และแยกตารางออกมาได้ ตรวจสอบข้อมูลโค้ดด้านล่างซึ่งจะเปิดไฟล์ PDF ที่ระบุและแยกตารางจากเอกสาร PDF:
เอาท์พุต
ภาพหน้าจอด้านล่างแสดงตารางที่แยกจากเอกสาร PDF:
แทรกข้อความลงใน PDF
ด้านล่างข้อมูลโค้ด Python สาธิตการใช้ไลบรารี PyMuPDF สำหรับการแทรกข้อความลงในไฟล์ PDF และบันทึก PDF ที่แก้ไขแล้วเป็น text.pdf:
เอาท์พุต
ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงที่ระบุด้านล่าง:
การรู้จำข้อความ PDF โดยใช้ OCR พร้อม PyMuPDF
We will perform OCR on the PDF file containing the following image:เอาท์พุต
รูปภาพด้านล่างแสดงข้อความที่แยกจากรูปภาพที่มีอยู่ในไฟล์ PDF ที่ให้มา:
บทสรุป
โดยสรุป PyMuPDF เป็นเครื่องมือระดับมืออาชีพที่มีจุดแข็งและจุดอ่อนที่ชัดเจน เหมาะอย่างยิ่งสำหรับงานต่างๆ เช่น OCR และการแยกข้อความ ซึ่งทำให้มีประโยชน์ในการจัดการข้อความในรูปแบบ PDF
อย่างไรก็ตาม การแยกตารางออกจาก PDF นั้นทำได้ไม่ดีนัก โดยเฉพาะเมื่อ PDF มีโครงสร้างที่ซับซ้อนหรือมีจำนวนหน้ามากกว่า ซึ่งอาจเป็นข้อเสียเปรียบสำหรับผู้ใช้บางราย นอกจากนี้ อาจจำเป็นต้องมีไลบรารีเพิ่มเติม เช่น ไฟล์ข้อมูลภาษา Pandas และ Tesseract OCR ในบางสถานการณ์ ซึ่งเพิ่มความซับซ้อนให้กับการใช้งาน แม้จะมีข้อจำกัดเหล่านี้ PyMuPDF ยังคงเป็นตัวเลือกที่มีประสิทธิภาพสำหรับการทำงานกับข้อความในรูปแบบ PDF