ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส
ทดลองใช้ไลบรารี Python โอเพนซอร์สฟรีนี้เพื่อวิเคราะห์ อ่าน และแยกข้อความ รูปภาพ ตาราง และเนื้อหาอื่นๆ จากเอกสาร PDF
PyMuPDF คืออะไร?
PyMuPDF หรือที่รู้จักกันในชื่อ Fitz เป็นไลบรารี Python โอเพนซอร์สที่มีชุดเครื่องมือที่ครอบคลุมสำหรับการทำงานกับไฟล์ PDF ด้วย PyMuPDF ผู้ใช้สามารถดำเนินการต่างๆ ได้อย่างมีประสิทธิภาพ เช่น การเปิดไฟล์ PDF การแยกข้อความ รูปภาพ และตาราง การปรับแต่งคุณสมบัติของหน้า เช่น การหมุนและการครอบตัด การสร้างเอกสาร PDF ใหม่ และการแปลงหน้า PDF เป็นรูปภาพ
PyMuPDF รองรับคุณสมบัติหลายประการดังรายการด้านล่างนี้:
- การอ่านเอกสาร PDF: PyMuPDF สามารถเปิดและอ่านเอกสาร PDF ทำให้คุณสามารถเข้าถึงข้อความ รูปภาพ และเนื้อหาอื่นๆ ภายในเอกสารได้
- การแยกข้อความ: คุณสามารถแยกข้อความจากเอกสาร PDF รวมถึงเนื้อหาข้อความ แบบอักษร และข้อมูลเค้าโครง
- การแยกรูปภาพ: คุณสามารถแยกรูปภาพจากเอกสาร PDF ในรูปแบบต่างๆ เช่น JPEG หรือ PNG
- การแยกตาราง: คุณสามารถแยกตารางจากเอกสาร PDF ได้ด้วย
ในบทวิจารณ์นี้ เราจะเน้นที่คุณลักษณะการแยกและการแยกวิเคราะห์ของไลบรารีเป็นหลัก หากต้องการประเมินคุณลักษณะการแยก การรวม และการจัดการหน้าแบบเจาะลึก โปรดคลิกที่นี่
เริ่มต้นใช้งาน PyMuPDF
คุณต้องใช้ Python เวอร์ชัน 3.8.0 ขึ้นไปจึงจะติดตั้งและใช้ PyMuPDF ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง PyMuPDF บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน
ลินุกซ์
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
ระบบปฏิบัติการ MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
หน้าต่าง
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
ดึงข้อความจาก PDF
คุณสามารถใช้ไลบรารี PyMuPDF ใน Python เพื่อแยกข้อความจากเอกสาร PDF และวิเคราะห์ข้อความ เช่น การนับคำ เพียงแค่ใช้ฟังก์ชันที่มีให้ในไลบรารี ดังที่แสดงในโค้ดด้านล่าง:
เอาท์พุต
รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาและจำนวนคำในไฟล์ PDF:
ดึงภาพจาก PDF
เราสามารถใช้ไลบรารี PyMuPDF เพื่อแยกภาพจากเอกสาร PDF ใน Python ได้ โค้ดตัวอย่างด้านล่างนี้จะเปิดไฟล์ PDF ที่ระบุ แยกภาพจาก PDF และบันทึกไว้ในไดเร็กทอรีการทำงานปัจจุบัน:
เอาท์พุต
ต่อไปนี้เป็นรูปภาพ PNG ที่แยกออกมาจากเอกสาร PDF
ดึงตารางจาก PDF
เราสามารถใช้ไลบรารี PyMuPDF เพื่อประมวลผลเอกสาร PDF และแยกตารางจากเอกสารนั้นได้ ลองดูตัวอย่างโค้ดด้านล่างซึ่งจะเปิดไฟล์ PDF ที่ระบุและแยกตารางจากเอกสาร PDF:
เอาท์พุต
ภาพหน้าจอด้านล่างแสดงตารางที่แยกออกมาจากเอกสาร PDF:
แทรกข้อความลงใน PDF
ตัวอย่างโค้ด Python ด้านล่างนี้สาธิตการใช้งานไลบรารี PyMuPDF สำหรับการแทรกข้อความในไฟล์ PDF และบันทึก PDF ที่ปรับเปลี่ยนแล้วเป็น text.pdf:
เอาท์พุต
ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงด้านล่าง:
การจดจำข้อความ PDF โดยใช้ OCR กับ PyMuPDF
We will perform OCR on the PDF file containing the following image:เอาท์พุต
รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาจากรูปภาพที่มีอยู่ในไฟล์ PDF ที่ให้มา:
บทสรุป
โดยสรุป PyMuPDF เป็นเครื่องมือระดับมืออาชีพที่มีทั้งจุดแข็งและจุดอ่อนที่ชัดเจน เหมาะอย่างยิ่งสำหรับงานเช่น OCR และการแยกข้อความ ซึ่งทำให้มีประโยชน์ในการจัดการข้อความใน PDF
อย่างไรก็ตาม โปรแกรมนี้ไม่เหมาะกับการแยกตารางจากไฟล์ PDF โดยเฉพาะเมื่อไฟล์ PDF มีโครงสร้างที่ซับซ้อนหรือมีจำนวนหน้ามาก ซึ่งอาจเป็นข้อเสียสำหรับผู้ใช้บางราย นอกจากนี้ โปรแกรมอาจต้องใช้ไลบรารีเพิ่มเติม เช่น ไฟล์ข้อมูลภาษา Pandas และ Tesseract OCR ในบางสถานการณ์ ซึ่งทำให้การใช้งานมีความซับซ้อนมากขึ้น แม้จะมีข้อจำกัดเหล่านี้ แต่ PyMuPDF ยังคงเป็นตัวเลือกที่มีประสิทธิภาพสำหรับการทำงานกับข้อความในไฟล์ PDF