ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส
แยกวิเคราะห์ PDF และแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF โดยใช้ไลบรารี Python ฟรี
pypdf คืออะไร?
Pypdf เป็นไลบรารี Python โอเพนซอร์สอันทรงคุณค่าที่ขึ้นชื่อในด้านความสามารถในการใช้งาน PDF ต่างๆ ไลบรารีนี้สามารถจัดการงานและการทำงานต่างๆ ที่เกี่ยวข้องกับไฟล์ PDF ได้มากมาย อย่างไรก็ตาม ในหน้านี้เราจะเน้นเฉพาะคุณลักษณะการแยกวิเคราะห์ PDF เท่านั้น
คุณสมบัติการแยกวิเคราะห์ที่โดดเด่นของ pypdf ประกอบด้วย:
- การอ่านไฟล์ PDF: Pypdf ช่วยให้คุณสามารถเปิดและอ่าน/แยกไฟล์ PDF ทำให้สามารถแยกข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF ที่มีอยู่ได้อย่างง่ายดาย
- การแยกเนื้อหา: คุณสามารถแยกและแยกข้อความ รูปภาพ และไฟล์แนบจากเอกสาร PDF ตามความต้องการของคุณได้
เริ่มต้นใช้งาน pypdf
คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pypdf
ระบบปฏิบัติการ MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
ดึงข้อความจาก PDF
Please check below code snippet for example:เอาท์พุต
รูปภาพด้านล่างแสดงข้อความที่แยกออกมาจากไฟล์ PDF
ดึงภาพจาก PDF
เราสามารถใช้ไลบรารี pypdf เพื่อแยกภาพจากเอกสาร PDF ได้ โดยต้องใช้ไลบรารีเพิ่มเติมชื่อ pillow เพื่อแยกภาพ ไลบรารีนี้จะวนซ้ำในแต่ละหน้า ระบุภาพ และบันทึกเป็นไฟล์ภาพแยกกันโดยคงชื่อเดิมของภาพเอาไว้ โปรดดูตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ข้อความที่แทรกโดยใช้โค้ดด้านบนจะถูกเน้นในกล่องสีแดงด้านล่าง
ดึงข้อมูลแนบจาก PDF
ไลบรารี pypdf ช่วยให้สามารถแยกและบันทึกไฟล์แนบจากเอกสาร PDF ได้ โดยไลบรารีจะตรวจสอบไฟล์แนบและเนื้อหา และบันทึกไว้ในไฟล์แยกต่างหาก โปรดดูตัวอย่างโค้ดด้านล่าง:
บทสรุป
โดยสรุป pypdf ถือเป็นไลบรารี Python อเนกประสงค์สำหรับการแยกคุณลักษณะจากเอกสาร PDF ไลบรารีนี้มีความสามารถในการแยกวิเคราะห์ข้อความ รูปภาพ และไฟล์แนบได้อย่างมีประสิทธิภาพ ทำให้เป็นเครื่องมือที่มีประโยชน์สำหรับการดึงข้อมูล การวิเคราะห์ และการจัดการเอกสาร
อย่างไรก็ตาม สิ่งสำคัญที่ต้องทราบคือ pypdf อาจเกิดปัญหาขึ้นได้เมื่อแยกข้อความ เช่น มีช่องว่างระหว่างคำและอักขระเพิ่มเติม ซึ่งอาจส่งผลต่อความถูกต้องของเนื้อหาที่แยกออกมา แม้จะมีข้อจำกัดนี้ pypdf ยังคงเป็นทรัพย์สินที่มีค่าสำหรับการแยกวิเคราะห์ไฟล์ PDF โดยเฉพาะในสถานการณ์ที่การจัดรูปแบบข้อความที่แม่นยำไม่ใช่ข้อกังวลหลัก