โอเพ่นซอร์ส Python PDF Parser Library

ลองใช้ไลบรารี Python แบบโอเพ่นซอร์สและฟรีนี้เพื่อแยกวิเคราะห์ อ่าน และแยกข้อความ รูปภาพ ตาราง และเนื้อหาอื่น ๆ จากเอกสาร PDF

PyMuPDF คืออะไร

PyMuPDF หรือที่รู้จักในชื่อ Fitz เป็นไลบรารี Python แบบโอเพ่นซอร์สที่มีชุดเครื่องมือที่ครอบคลุมสำหรับการทำงานกับไฟล์ PDF ด้วย PyMuPDF ผู้ใช้สามารถทำงานต่างๆ ได้อย่างมีประสิทธิภาพ เช่น การเปิด PDF, แยกข้อความ รูปภาพ และตาราง จัดการคุณสมบัติของหน้า เช่น การหมุนและการครอบตัด การสร้างเอกสาร PDF ใหม่ และการแปลงหน้า PDF เป็นรูปภาพ

PyMuPDF รองรับคุณสมบัติหลายประการตามรายการด้านล่าง:

  • การอ่านเอกสาร PDF: PyMuPDF สามารถเปิดและอ่านเอกสาร PDF ได้ ทำให้คุณสามารถเข้าถึงข้อความ รูปภาพ และเนื้อหาอื่น ๆ ภายในเอกสารเหล่านั้นได้
  • การแยกข้อความ: คุณสามารถแยกข้อความจากเอกสาร PDF รวมถึงเนื้อหาข้อความ แบบอักษร และข้อมูลเค้าโครง
  • การแยกรูปภาพ: คุณสามารถแยกรูปภาพจากเอกสาร PDF ในรูปแบบต่างๆ เช่น JPEG หรือ PNG
  • การแยกตาราง: คุณยังสามารถแยกตารางจากเอกสาร PDF ได้อีกด้วย

ในการทบทวนนี้ จุดสนใจหลักของเราคือคุณลักษณะการแยกและแยกวิเคราะห์ของไลบรารี สำหรับการประเมินเชิงลึกเกี่ยวกับคุณลักษณะการแยก การรวม และการจัดการหน้า โปรด คลิกที่นี่

GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน PyMuPDF

คุณต้องมี Python เวอร์ชัน 3.8.0 ขึ้นไปจึงจะติดตั้งและใช้ PyMuPDF ได้ ดังนั้น ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง PyMuPDF บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.

ลินุกซ์


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

แมคโอเอส


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

หน้าต่าง


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

แยกข้อความจาก PDF

คุณสามารถใช้ไลบรารี PyMuPDF ใน Python เพื่อแยกข้อความจากเอกสาร PDF และดำเนินการวิเคราะห์ข้อความ เช่น การนับคำ เพียงใช้ฟังก์ชันที่มีให้ในไลบรารี ดังที่แสดงในโค้ดด้านล่าง:

เอาท์พุต

รูปภาพด้านล่างแสดงข้อความที่แยกออกมาและจำนวนคำในไฟล์ PDF:

แยกรูปภาพจาก PDF

เราสามารถใช้ไลบรารี PyMuPDF เพื่อแยกรูปภาพจากเอกสาร PDF ใน Python ข้อมูลโค้ดด้านล่างจะเปิดไฟล์ PDF ที่ระบุ แยกรูปภาพจาก PDF และบันทึกไว้ในไดเร็กทอรีการทำงานปัจจุบัน:

เอาท์พุต

ต่อไปนี้เป็นรูปภาพ PNG ที่แยกจากเอกสาร PDF

แยกตารางออกจาก PDF

นอกจากนี้เรายังสามารถใช้ไลบรารี PyMuPDF เพื่อประมวลผลเอกสาร PDF และแยกตารางออกมาได้ ตรวจสอบข้อมูลโค้ดด้านล่างซึ่งจะเปิดไฟล์ PDF ที่ระบุและแยกตารางจากเอกสาร PDF:

เอาท์พุต

ภาพหน้าจอด้านล่างแสดงตารางที่แยกจากเอกสาร PDF:

แทรกข้อความลงใน PDF

ด้านล่างข้อมูลโค้ด Python สาธิตการใช้ไลบรารี PyMuPDF สำหรับการแทรกข้อความลงในไฟล์ PDF และบันทึก PDF ที่แก้ไขแล้วเป็น text.pdf:

เอาท์พุต

ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงที่ระบุด้านล่าง:

การรู้จำข้อความ PDF โดยใช้ OCR พร้อม PyMuPDF

We will perform OCR on the PDF file containing the following image:

เอาท์พุต

รูปภาพด้านล่างแสดงข้อความที่แยกจากรูปภาพที่มีอยู่ในไฟล์ PDF ที่ให้มา:

บทสรุป

โดยสรุป PyMuPDF เป็นเครื่องมือระดับมืออาชีพที่มีจุดแข็งและจุดอ่อนที่ชัดเจน เหมาะอย่างยิ่งสำหรับงานต่างๆ เช่น OCR และการแยกข้อความ ซึ่งทำให้มีประโยชน์ในการจัดการข้อความในรูปแบบ PDF

อย่างไรก็ตาม การแยกตารางออกจาก PDF นั้นทำได้ไม่ดีนัก โดยเฉพาะเมื่อ PDF มีโครงสร้างที่ซับซ้อนหรือมีจำนวนหน้ามากกว่า ซึ่งอาจเป็นข้อเสียเปรียบสำหรับผู้ใช้บางราย นอกจากนี้ อาจจำเป็นต้องมีไลบรารีเพิ่มเติม เช่น ไฟล์ข้อมูลภาษา Pandas และ Tesseract OCR ในบางสถานการณ์ ซึ่งเพิ่มความซับซ้อนให้กับการใช้งาน แม้จะมีข้อจำกัดเหล่านี้ PyMuPDF ยังคงเป็นตัวเลือกที่มีประสิทธิภาพสำหรับการทำงานกับข้อความในรูปแบบ PDF

สินค้าที่คล้ายกัน

 Thai