โอเพ่นซอร์ส Python PDF Parser Library

แยกวิเคราะห์ PDF และแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF โดยใช้ไลบรารี Python ฟรี

pypdf คืออะไร?

Pypdf เป็นไลบรารี Python โอเพ่นซอร์สอันทรงคุณค่าซึ่งเป็นที่รู้จักในด้านความสามารถในการดำเนินการ PDF ต่างๆ ไลบรารีนี้สามารถจัดการงานและการดำเนินการต่างๆ ที่เกี่ยวข้องกับไฟล์ PDF ได้ อย่างไรก็ตาม เราจะเน้นเฉพาะคุณลักษณะการแยกวิเคราะห์ PDF ในหน้านี้เท่านั้น

คุณสมบัติการแยกวิเคราะห์ที่โดดเด่นของ pypdf ได้แก่ :

  • การอ่านไฟล์ PDF: Pypdf ช่วยให้คุณสามารถเปิดและอ่าน/แยกวิเคราะห์ไฟล์ PDF ทำให้ง่ายต่อการแยกข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF ที่มีอยู่
  • การแยกเนื้อหา: คุณสามารถแยกและแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF ได้ตามความต้องการของคุณ
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pypdf

คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pypdf

แมคโอเอส


python -m venv venv
source venv/bin/activate
pip install pypdf

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

แยกข้อความจาก PDF

Please check below code snippet for example:

เอาท์พุต

รูปภาพด้านล่างแสดงข้อความที่แยกจากไฟล์ PDF

แยกรูปภาพจาก PDF

เราสามารถใช้ไลบรารี pypdf เพื่อแยกรูปภาพจากเอกสาร PDF จำเป็นต้องมีไลบรารีเพิ่มเติมชื่อ pillow เพื่อแยกรูปภาพ โดยวนซ้ำแต่ละหน้า ระบุรูปภาพ และบันทึกเป็นไฟล์รูปภาพแยกกัน โดยคงชื่อดั้งเดิมของรูปภาพไว้ โปรดตรวจสอบข้อมูลโค้ดด้านล่างเช่น:

เอาท์พุต

ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงที่ระบุด้านล่าง

แยกไฟล์แนบจาก PDF

ไลบรารี pypdf อนุญาตให้แยกและบันทึกไฟล์แนบจากเอกสาร PDF มันวนซ้ำไฟล์แนบและเนื้อหาและบันทึกเป็นไฟล์แยกกัน โปรดตรวจสอบข้อมูลโค้ดด้านล่างเช่น:

บทสรุป

โดยสรุป pypdf มีความโดดเด่นในฐานะไลบรารี Python อเนกประสงค์สำหรับการแยกคุณสมบัติจากเอกสาร PDF โดยนำเสนอความสามารถที่แข็งแกร่งสำหรับการแยกวิเคราะห์ข้อความ รูปภาพ และไฟล์แนบ ทำให้เป็นเครื่องมืออันทรงคุณค่าสำหรับการดึงข้อมูล การวิเคราะห์ และการจัดการเอกสาร

อย่างไรก็ตาม สิ่งสำคัญที่ควรทราบคือ pypdf อาจเกิดปัญหาเป็นครั้งคราวเมื่อแยกข้อความ เช่น การเว้นวรรคเพิ่มเติมระหว่างคำและอักขระ ซึ่งอาจส่งผลต่อความถูกต้องของเนื้อหาที่แยกออกมา แม้จะมีข้อจำกัดนี้ pypdf ยังคงเป็นทรัพย์สินที่มีค่าสำหรับการแยกวิเคราะห์ไฟล์ PDF โดยเฉพาะอย่างยิ่งในสถานการณ์ที่การจัดรูปแบบข้อความที่แม่นยำไม่ใช่ประเด็นหลัก

สินค้าที่คล้ายกัน

 Thai