โอเพ่นซอร์ส Python PDF Parser Library
แยกวิเคราะห์ PDF และแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF โดยใช้ไลบรารี Python ฟรี
pypdf คืออะไร?
Pypdf เป็นไลบรารี Python โอเพ่นซอร์สอันทรงคุณค่าซึ่งเป็นที่รู้จักในด้านความสามารถในการดำเนินการ PDF ต่างๆ ไลบรารีนี้สามารถจัดการงานและการดำเนินการต่างๆ ที่เกี่ยวข้องกับไฟล์ PDF ได้ อย่างไรก็ตาม เราจะเน้นเฉพาะคุณลักษณะการแยกวิเคราะห์ PDF ในหน้านี้เท่านั้น
คุณสมบัติการแยกวิเคราะห์ที่โดดเด่นของ pypdf ได้แก่ :
- การอ่านไฟล์ PDF: Pypdf ช่วยให้คุณสามารถเปิดและอ่าน/แยกวิเคราะห์ไฟล์ PDF ทำให้ง่ายต่อการแยกข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF ที่มีอยู่
- การแยกเนื้อหา: คุณสามารถแยกและแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF ได้ตามความต้องการของคุณ
เริ่มต้นใช้งาน pypdf
คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pypdf
แมคโอเอส
python -m venv venv
source venv/bin/activate
pip install pypdf
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
แยกข้อความจาก PDF
Please check below code snippet for example:เอาท์พุต
รูปภาพด้านล่างแสดงข้อความที่แยกจากไฟล์ PDF
แยกรูปภาพจาก PDF
เราสามารถใช้ไลบรารี pypdf เพื่อแยกรูปภาพจากเอกสาร PDF จำเป็นต้องมีไลบรารีเพิ่มเติมชื่อ pillow เพื่อแยกรูปภาพ โดยวนซ้ำแต่ละหน้า ระบุรูปภาพ และบันทึกเป็นไฟล์รูปภาพแยกกัน โดยคงชื่อดั้งเดิมของรูปภาพไว้ โปรดตรวจสอบข้อมูลโค้ดด้านล่างเช่น:
เอาท์พุต
ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงที่ระบุด้านล่าง
แยกไฟล์แนบจาก PDF
ไลบรารี pypdf อนุญาตให้แยกและบันทึกไฟล์แนบจากเอกสาร PDF มันวนซ้ำไฟล์แนบและเนื้อหาและบันทึกเป็นไฟล์แยกกัน โปรดตรวจสอบข้อมูลโค้ดด้านล่างเช่น:
บทสรุป
โดยสรุป pypdf มีความโดดเด่นในฐานะไลบรารี Python อเนกประสงค์สำหรับการแยกคุณสมบัติจากเอกสาร PDF โดยนำเสนอความสามารถที่แข็งแกร่งสำหรับการแยกวิเคราะห์ข้อความ รูปภาพ และไฟล์แนบ ทำให้เป็นเครื่องมืออันทรงคุณค่าสำหรับการดึงข้อมูล การวิเคราะห์ และการจัดการเอกสาร
อย่างไรก็ตาม สิ่งสำคัญที่ควรทราบคือ pypdf อาจเกิดปัญหาเป็นครั้งคราวเมื่อแยกข้อความ เช่น การเว้นวรรคเพิ่มเติมระหว่างคำและอักขระ ซึ่งอาจส่งผลต่อความถูกต้องของเนื้อหาที่แยกออกมา แม้จะมีข้อจำกัดนี้ pypdf ยังคงเป็นทรัพย์สินที่มีค่าสำหรับการแยกวิเคราะห์ไฟล์ PDF โดยเฉพาะอย่างยิ่งในสถานการณ์ที่การจัดรูปแบบข้อความที่แม่นยำไม่ใช่ประเด็นหลัก