ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส

ทดลองใช้ไลบรารี Python โอเพนซอร์สฟรีนี้เพื่อวิเคราะห์ อ่าน และแยกข้อความ รูปภาพ ตาราง และเนื้อหาอื่นๆ จากเอกสาร PDF

PyMuPDF คืออะไร?

PyMuPDF หรือที่รู้จักกันในชื่อ Fitz เป็นไลบรารี Python โอเพนซอร์สที่มีชุดเครื่องมือที่ครอบคลุมสำหรับการทำงานกับไฟล์ PDF ด้วย PyMuPDF ผู้ใช้สามารถดำเนินการต่างๆ ได้อย่างมีประสิทธิภาพ เช่น การเปิดไฟล์ PDF การแยกข้อความ รูปภาพ และตาราง การปรับแต่งคุณสมบัติของหน้า เช่น การหมุนและการครอบตัด การสร้างเอกสาร PDF ใหม่ และการแปลงหน้า PDF เป็นรูปภาพ

PyMuPDF รองรับคุณสมบัติหลายประการดังรายการด้านล่างนี้:

การอ่านเอกสาร PDF: PyMuPDF สามารถเปิดและอ่านเอกสาร PDF ทำให้คุณสามารถเข้าถึงข้อความ รูปภาพ และเนื้อหาอื่นๆ ภายในเอกสารได้
การแยกข้อความ: คุณสามารถแยกข้อความจากเอกสาร PDF รวมถึงเนื้อหาข้อความ แบบอักษร และข้อมูลเค้าโครง
การแยกรูปภาพ: คุณสามารถแยกรูปภาพจากเอกสาร PDF ในรูปแบบต่างๆ เช่น JPEG หรือ PNG
การแยกตาราง: คุณสามารถแยกตารางจากเอกสาร PDF ได้ด้วย

ในบทวิจารณ์นี้ เราจะเน้นที่คุณลักษณะการแยกและการแยกวิเคราะห์ของไลบรารีเป็นหลัก หากต้องการประเมินคุณลักษณะการแยก การรวม และการจัดการหน้าแบบเจาะลึก โปรดคลิกที่นี่

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน PyMuPDF

คุณต้องใช้ Python เวอร์ชัน 3.8.0 ขึ้นไปจึงจะติดตั้งและใช้ PyMuPDF ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง PyMuPDF บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ระบบปฏิบัติการ MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

หน้าต่าง


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

ดึงข้อความจาก PDF

คุณสามารถใช้ไลบรารี PyMuPDF ใน Python เพื่อแยกข้อความจากเอกสาร PDF และวิเคราะห์ข้อความ เช่น การนับคำ เพียงแค่ใช้ฟังก์ชันที่มีให้ในไลบรารี ดังที่แสดงในโค้ดด้านล่าง:

เอาท์พุต

รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาและจำนวนคำในไฟล์ PDF:

ดึงภาพจาก PDF

เราสามารถใช้ไลบรารี PyMuPDF เพื่อแยกภาพจากเอกสาร PDF ใน Python ได้ โค้ดตัวอย่างด้านล่างนี้จะเปิดไฟล์ PDF ที่ระบุ แยกภาพจาก PDF และบันทึกไว้ในไดเร็กทอรีการทำงานปัจจุบัน:

เอาท์พุต

ต่อไปนี้เป็นรูปภาพ PNG ที่แยกออกมาจากเอกสาร PDF

ดึงตารางจาก PDF

เราสามารถใช้ไลบรารี PyMuPDF เพื่อประมวลผลเอกสาร PDF และแยกตารางจากเอกสารนั้นได้ ลองดูตัวอย่างโค้ดด้านล่างซึ่งจะเปิดไฟล์ PDF ที่ระบุและแยกตารางจากเอกสาร PDF:

เอาท์พุต

ภาพหน้าจอด้านล่างแสดงตารางที่แยกออกมาจากเอกสาร PDF:

แทรกข้อความลงใน PDF

ตัวอย่างโค้ด Python ด้านล่างนี้สาธิตการใช้งานไลบรารี PyMuPDF สำหรับการแทรกข้อความในไฟล์ PDF และบันทึก PDF ที่ปรับเปลี่ยนแล้วเป็น text.pdf:

เอาท์พุต

ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงด้านล่าง:

การจดจำข้อความ PDF โดยใช้ OCR กับ PyMuPDF

We will perform OCR on the PDF file containing the following image:

เอาท์พุต

รูปภาพด้านล่างนี้แสดงข้อความที่แยกออกมาจากรูปภาพที่มีอยู่ในไฟล์ PDF ที่ให้มา:

บทสรุป

โดยสรุป PyMuPDF เป็นเครื่องมือระดับมืออาชีพที่มีทั้งจุดแข็งและจุดอ่อนที่ชัดเจน เหมาะอย่างยิ่งสำหรับงานเช่น OCR และการแยกข้อความ ซึ่งทำให้มีประโยชน์ในการจัดการข้อความใน PDF

อย่างไรก็ตาม โปรแกรมนี้ไม่เหมาะกับการแยกตารางจากไฟล์ PDF โดยเฉพาะเมื่อไฟล์ PDF มีโครงสร้างที่ซับซ้อนหรือมีจำนวนหน้ามาก ซึ่งอาจเป็นข้อเสียสำหรับผู้ใช้บางราย นอกจากนี้ โปรแกรมอาจต้องใช้ไลบรารีเพิ่มเติม เช่น ไฟล์ข้อมูลภาษา Pandas และ Tesseract OCR ในบางสถานการณ์ ซึ่งทำให้การใช้งานมีความซับซ้อนมากขึ้น แม้จะมีข้อจำกัดเหล่านี้ แต่ PyMuPDF ยังคงเป็นตัวเลือกที่มีประสิทธิภาพสำหรับการทำงานกับข้อความในไฟล์ PDF

ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส

PyMuPDF คืออะไร?

สถิติ GitHub

เริ่มต้นใช้งาน PyMuPDF

ลินุกซ์

ระบบปฏิบัติการ MacOS

หน้าต่าง

ดึงข้อความจาก PDF

เอาท์พุต

ดึงภาพจาก PDF

เอาท์พุต

ดึงตารางจาก PDF

เอาท์พุต

แทรกข้อความลงใน PDF

เอาท์พุต

การจดจำข้อความ PDF โดยใช้ OCR กับ PyMuPDF

เอาท์พุต

บทสรุป

สินค้าที่คล้ายกัน