ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส

ทดลองใช้ไลบรารี Python โอเพนซอร์สฟรีนี้เพื่อวิเคราะห์ อ่าน และแยกข้อความ รูปภาพ ตาราง และเนื้อหาอื่นๆ จากเอกสาร PDF

PyMuPDF คืออะไร?

PyMuPDF หรือที่รู้จักกันในชื่อ Fitz เป็นไลบรารี Python โอเพนซอร์สที่มีชุดเครื่องมือที่ครอบคลุมสำหรับการทำงานกับไฟล์ PDF ด้วย PyMuPDF ผู้ใช้สามารถดำเนินการต่างๆ ได้อย่างมีประสิทธิภาพ เช่น การเปิดไฟล์ PDF การแยกข้อความ รูปภาพ และตาราง การปรับแต่งคุณสมบัติของหน้า เช่น การหมุนและการครอบตัด การสร้างเอกสาร PDF ใหม่ และการแปลงหน้า PDF เป็นรูปภาพ

PyMuPDF รองรับคุณสมบัติหลายประการดังรายการด้านล่างนี้:

  • การอ่านเอกสาร PDF: PyMuPDF สามารถเปิดและอ่านเอกสาร PDF ทำให้คุณสามารถเข้าถึงข้อความ รูปภาพ และเนื้อหาอื่นๆ ภายในเอกสารได้
  • การแยกข้อความ: คุณสามารถแยกข้อความจากเอกสาร PDF รวมถึงเนื้อหาข้อความ แบบอักษร และข้อมูลเค้าโครง
  • การแยกรูปภาพ: คุณสามารถแยกรูปภาพจากเอกสาร PDF ในรูปแบบต่างๆ เช่น JPEG หรือ PNG
  • การแยกตาราง: คุณสามารถแยกตารางจากเอกสาร PDF ได้ด้วย

ในบทวิจารณ์นี้ เราจะเน้นที่คุณลักษณะการแยกและการแยกวิเคราะห์ของไลบรารีเป็นหลัก หากต้องการประเมินคุณลักษณะการแยก การรวม และการจัดการหน้าแบบเจาะลึก โปรดคลิกที่นี่

GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน PyMuPDF

คุณต้องใช้ Python เวอร์ชัน 3.8.0 ขึ้นไปจึงจะติดตั้งและใช้ PyMuPDF ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง PyMuPDF บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ระบบปฏิบัติการ MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

หน้าต่าง


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

ดึงข้อความจาก PDF

คุณสามารถใช้ไลบรารี PyMuPDF ใน Python เพื่อแยกข้อความจากเอกสาร PDF และวิเคราะห์ข้อความ เช่น การนับคำ เพียงแค่ใช้ฟังก์ชันที่มีให้ในไลบรารี ดังที่แสดงในโค้ดด้านล่าง:

เอาท์พุต

รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาและจำนวนคำในไฟล์ PDF:

ดึงภาพจาก PDF

เราสามารถใช้ไลบรารี PyMuPDF เพื่อแยกภาพจากเอกสาร PDF ใน Python ได้ โค้ดตัวอย่างด้านล่างนี้จะเปิดไฟล์ PDF ที่ระบุ แยกภาพจาก PDF และบันทึกไว้ในไดเร็กทอรีการทำงานปัจจุบัน:

เอาท์พุต

ต่อไปนี้เป็นรูปภาพ PNG ที่แยกออกมาจากเอกสาร PDF

ดึงตารางจาก PDF

เราสามารถใช้ไลบรารี PyMuPDF เพื่อประมวลผลเอกสาร PDF และแยกตารางจากเอกสารนั้นได้ ลองดูตัวอย่างโค้ดด้านล่างซึ่งจะเปิดไฟล์ PDF ที่ระบุและแยกตารางจากเอกสาร PDF:

เอาท์พุต

ภาพหน้าจอด้านล่างแสดงตารางที่แยกออกมาจากเอกสาร PDF:

แทรกข้อความลงใน PDF

ตัวอย่างโค้ด Python ด้านล่างนี้สาธิตการใช้งานไลบรารี PyMuPDF สำหรับการแทรกข้อความในไฟล์ PDF และบันทึก PDF ที่ปรับเปลี่ยนแล้วเป็น text.pdf:

เอาท์พุต

ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงด้านล่าง:

การจดจำข้อความ PDF โดยใช้ OCR กับ PyMuPDF

We will perform OCR on the PDF file containing the following image:

เอาท์พุต

รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาจากรูปภาพที่มีอยู่ในไฟล์ PDF ที่ให้มา:

บทสรุป

โดยสรุป PyMuPDF เป็นเครื่องมือระดับมืออาชีพที่มีทั้งจุดแข็งและจุดอ่อนที่ชัดเจน เหมาะอย่างยิ่งสำหรับงานเช่น OCR และการแยกข้อความ ซึ่งทำให้มีประโยชน์ในการจัดการข้อความใน PDF

อย่างไรก็ตาม โปรแกรมนี้ไม่เหมาะกับการแยกตารางจากไฟล์ PDF โดยเฉพาะเมื่อไฟล์ PDF มีโครงสร้างที่ซับซ้อนหรือมีจำนวนหน้ามาก ซึ่งอาจเป็นข้อเสียสำหรับผู้ใช้บางราย นอกจากนี้ โปรแกรมอาจต้องใช้ไลบรารีเพิ่มเติม เช่น ไฟล์ข้อมูลภาษา Pandas และ Tesseract OCR ในบางสถานการณ์ ซึ่งทำให้การใช้งานมีความซับซ้อนมากขึ้น แม้จะมีข้อจำกัดเหล่านี้ แต่ PyMuPDF ยังคงเป็นตัวเลือกที่มีประสิทธิภาพสำหรับการทำงานกับข้อความในไฟล์ PDF

สินค้าที่คล้ายกัน

 Thai