โอเพ่นซอร์ส Python PDF Parser Library
ไลบรารี Python แบบโอเพ่นซอร์สฟรีเพื่อแยกวิเคราะห์ PDF และแยกข้อความพร้อมข้อมูลการจัดรูปแบบ
pdfminer.six คืออะไร?
Pdfminer.six เป็นไลบรารี Python แบบโอเพ่นซอร์สและชุดเครื่องมือสำหรับดึงข้อมูลจากเอกสาร PDF คุณสามารถแยกวิเคราะห์เอกสาร PDF และแยกข้อความ สารบัญ และเนื้อหาที่แท็ก ฯลฯ จาก PDF เพื่อการวิเคราะห์ข้อมูล
ต่อไปนี้เป็นรายการโดยย่อของคุณลักษณะการแยกวิเคราะห์:
- การแยกข้อความ: แยกเนื้อหาข้อความจากเอกสาร PDF รวมถึงข้อมูลเค้าโครงและการจัดรูปแบบ เช่น สีข้อความ แบบอักษร และตำแหน่ง ฯลฯ
- การแยกข้อมูลแบบอักษร: แยกข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF
เริ่มต้นใช้งาน pdfminer.six
คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
แมคโอเอส
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
แยกข้อความจากเอกสาร PDF
คุณสามารถใช้ไลบรารี pdfminer.six ใน Python เพื่อแยกข้อความจากเอกสาร PDF ได้โดยใช้ฟังก์ชัน extract_text ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงข้อความที่แยกมาจากเอกสาร PDF:
แยกข้อมูลแบบอักษรจากเอกสาร PDF
นอกจากนี้เรายังสามารถดึงข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF เช่น ชื่อแบบอักษรและขนาดแบบอักษรโดยการวนซ้ำองค์ประกอบเค้าโครงของแต่ละหน้าใน PDF ตัวอย่างเช่น ตรวจสอบข้อมูลโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงข้อมูลแบบอักษรที่แยกมาจากเอกสาร PDF:
บทสรุป
โดยสรุป pdfminer.six มีความสามารถในการดึงข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF แต่ขาดฟังก์ชันการทำงาน เช่น การแยกรูปภาพและตารางจาก PDF
สิ่งสำคัญที่ควรทราบคือไลบรารี pdfminer.six รองรับการแยกหน้า PDF เป็นรูปภาพ แต่จะแตกต่างจากการแยกรูปภาพที่ฝังอยู่ในเอกสาร PDF ซึ่ง pdfminer.six ไม่รองรับ อย่างไรก็ตาม นักพัฒนายังคงสามารถวางใจได้ในการแยกวิเคราะห์ PDF ใน Python เพื่อแยกข้อความสำหรับความต้องการในการวิเคราะห์ข้อมูล