ไลบรารี่ PDF ของ Python โอเพ่นซอร์ส

ไลบรารี Python โอเพนซอร์สและฟรีสำหรับวิเคราะห์ PDF และแยกข้อความพร้อมข้อมูลการจัดรูปแบบ

pdfminer.six คืออะไร?

Pdfminer.six เป็นไลบรารี Python โอเพนซอร์สและชุดเครื่องมือสำหรับแยกข้อมูลจากเอกสาร PDF คุณสามารถแยกวิเคราะห์เอกสาร PDF และแยกข้อความ สารบัญ และเนื้อหาที่มีแท็ก ฯลฯ จาก PDF เพื่อวิเคราะห์ข้อมูล

ต่อไปนี้เป็นรายการคุณลักษณะการแยกวิเคราะห์โดยย่อ:

  • การแยกข้อความ: การแยกเนื้อหาข้อความจากเอกสาร PDF รวมถึงข้อมูลเค้าโครงและการจัดรูปแบบเช่น สีข้อความ แบบอักษร และตำแหน่ง เป็นต้น
  • การแยกข้อมูลแบบอักษร: การแยกข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdfminer.six

คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ระบบปฏิบัติการ MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

ดึงข้อความจากเอกสาร PDF

คุณสามารถใช้ไลบรารี pdfminer.six ใน Python เพื่อแยกข้อความจากเอกสาร PDF ได้โดยใช้ฟังก์ชัน extract_text ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงข้อความที่แยกออกมาจากเอกสาร PDF:

ดึงข้อมูลแบบอักษรจากเอกสาร PDF

เราสามารถดึงข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF เช่น ชื่อแบบอักษรและขนาดแบบอักษรได้โดยการวนซ้ำผ่านองค์ประกอบเค้าโครงของแต่ละหน้าใน PDF ตัวอย่างเช่น ตรวจสอบตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงข้อมูลแบบอักษรที่แยกออกมาจากเอกสาร PDF:

บทสรุป

สรุปแล้ว pdfminer.six มีความสามารถในการแยกข้อความและข้อมูลอื่นๆ จากเอกสาร PDF แต่ขาดฟังก์ชันการทำงานเช่นการแยกรูปภาพและตารางจาก PDF

สิ่งสำคัญที่ต้องทราบคือไลบรารี pdfminer.six รองรับการแยกหน้า PDF ในรูปแบบรูปภาพ แต่แตกต่างจากการแยกรูปภาพที่ฝังอยู่ในเอกสาร PDF ซึ่ง pdfminer.six ไม่รองรับ อย่างไรก็ตาม นักพัฒนาซอฟต์แวร์ยังสามารถใช้ไลบรารีนี้เพื่อวิเคราะห์ PDF ใน Python เพื่อแยกข้อความสำหรับความต้องการวิเคราะห์ข้อมูลของตนได้

สินค้าที่คล้ายกัน

 Thai