ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส

แยกวิเคราะห์ PDF และแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF โดยใช้ไลบรารี Python ฟรี

pypdf คืออะไร?

Pypdf เป็นไลบรารี Python โอเพนซอร์สอันทรงคุณค่าที่ขึ้นชื่อในด้านความสามารถในการใช้งาน PDF ต่างๆ ไลบรารีนี้สามารถจัดการงานและการทำงานต่างๆ ที่เกี่ยวข้องกับไฟล์ PDF ได้มากมาย อย่างไรก็ตาม ในหน้านี้เราจะเน้นเฉพาะคุณลักษณะการแยกวิเคราะห์ PDF เท่านั้น

คุณสมบัติการแยกวิเคราะห์ที่โดดเด่นของ pypdf ประกอบด้วย:

  • การอ่านไฟล์ PDF: Pypdf ช่วยให้คุณสามารถเปิดและอ่าน/แยกไฟล์ PDF ทำให้สามารถแยกข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF ที่มีอยู่ได้อย่างง่ายดาย
  • การแยกเนื้อหา: คุณสามารถแยกและแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF ตามความต้องการของคุณได้
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pypdf

คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pypdf

ระบบปฏิบัติการ MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

ดึงข้อความจาก PDF

Please check below code snippet for example:

เอาท์พุต

รูปภาพด้านล่างแสดงข้อความที่แยกออกมาจากไฟล์ PDF

ดึงภาพจาก PDF

เราสามารถใช้ไลบรารี pypdf เพื่อแยกภาพจากเอกสาร PDF ได้ โดยต้องใช้ไลบรารีเพิ่มเติมชื่อ pillow เพื่อแยกภาพ ไลบรารีนี้จะวนซ้ำในแต่ละหน้า ระบุภาพ และบันทึกเป็นไฟล์ภาพแยกกันโดยคงชื่อเดิมของภาพเอาไว้ โปรดดูตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงด้านล่าง

ดึงข้อมูลแนบจาก PDF

ไลบรารี pypdf ช่วยให้สามารถแยกและบันทึกไฟล์แนบจากเอกสาร PDF ได้ โดยไลบรารีจะตรวจสอบไฟล์แนบและเนื้อหา และบันทึกไว้ในไฟล์แยกต่างหาก โปรดดูตัวอย่างโค้ดด้านล่าง:

บทสรุป

โดยสรุป pypdf ถือเป็นไลบรารี Python อเนกประสงค์สำหรับการแยกคุณลักษณะจากเอกสาร PDF ไลบรารีนี้มีความสามารถในการแยกวิเคราะห์ข้อความ รูปภาพ และไฟล์แนบได้อย่างมีประสิทธิภาพ ทำให้เป็นเครื่องมือที่มีประโยชน์สำหรับการดึงข้อมูล การวิเคราะห์ และการจัดการเอกสาร

อย่างไรก็ตาม สิ่งสำคัญที่ต้องทราบคือ pypdf อาจเกิดปัญหาขึ้นได้เมื่อแยกข้อความ เช่น มีช่องว่างระหว่างคำและอักขระเพิ่มเติม ซึ่งอาจส่งผลต่อความถูกต้องของเนื้อหาที่แยกออกมา แม้จะมีข้อจำกัดนี้ pypdf ยังคงเป็นทรัพย์สินที่มีค่าสำหรับการแยกวิเคราะห์ไฟล์ PDF โดยเฉพาะในสถานการณ์ที่การจัดรูปแบบข้อความที่แม่นยำไม่ใช่ข้อกังวลหลัก

สินค้าที่คล้ายกัน

 Thai