ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส
ไลบรารี Python โอเพนซอร์สและฟรีสำหรับวิเคราะห์ PDF และแยกข้อความพร้อมข้อมูลการจัดรูปแบบ
pdfminer.six คืออะไร?
Pdfminer.six เป็นไลบรารี Python โอเพนซอร์สและชุดเครื่องมือสำหรับแยกข้อมูลจากเอกสาร PDF คุณสามารถแยกวิเคราะห์เอกสาร PDF และแยกข้อความ สารบัญ และเนื้อหาที่มีแท็ก ฯลฯ จาก PDF เพื่อวิเคราะห์ข้อมูล
ต่อไปนี้เป็นรายการคุณลักษณะการแยกวิเคราะห์โดยย่อ:
- การแยกข้อความ: การแยกเนื้อหาข้อความจากเอกสาร PDF รวมถึงข้อมูลเค้าโครงและการจัดรูปแบบเช่น สีข้อความ แบบอักษร และตำแหน่ง เป็นต้น
- การแยกข้อมูลแบบอักษร: การแยกข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF
เริ่มต้นใช้งาน pdfminer.six
คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ระบบปฏิบัติการ MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
ดึงข้อความจากเอกสาร PDF
คุณสามารถใช้ไลบรารี pdfminer.six ใน Python เพื่อแยกข้อความจากเอกสาร PDF ได้โดยใช้ฟังก์ชัน extract_text ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงข้อความที่แยกออกมาจากเอกสาร PDF:
ดึงข้อมูลแบบอักษรจากเอกสาร PDF
เราสามารถดึงข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF เช่น ชื่อแบบอักษรและขนาดแบบอักษรได้โดยการวนซ้ำผ่านองค์ประกอบเค้าโครงของแต่ละหน้าใน PDF ตัวอย่างเช่น ตรวจสอบตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงข้อมูลแบบอักษรที่แยกออกมาจากเอกสาร PDF:
บทสรุป
สรุปแล้ว pdfminer.six มีความสามารถในการแยกข้อความและข้อมูลอื่นๆ จากเอกสาร PDF แต่ขาดฟังก์ชันการทำงานเช่นการแยกรูปภาพและตารางจาก PDF
สิ่งสำคัญที่ต้องทราบคือไลบรารี pdfminer.six รองรับการแยกหน้า PDF ในรูปแบบรูปภาพ แต่แตกต่างจากการแยกรูปภาพที่ฝังอยู่ในเอกสาร PDF ซึ่ง pdfminer.six ไม่รองรับ อย่างไรก็ตาม นักพัฒนาซอฟต์แวร์ยังสามารถใช้ไลบรารีนี้เพื่อวิเคราะห์ PDF ใน Python เพื่อแยกข้อความสำหรับความต้องการวิเคราะห์ข้อมูลของตนได้