โอเพ่นซอร์ส Python PDF Parser Library

ไลบรารี Python แบบโอเพ่นซอร์สฟรีเพื่อแยกวิเคราะห์ PDF และแยกข้อความพร้อมข้อมูลการจัดรูปแบบ

pdfminer.six คืออะไร?

Pdfminer.six เป็นไลบรารี Python แบบโอเพ่นซอร์สและชุดเครื่องมือสำหรับดึงข้อมูลจากเอกสาร PDF คุณสามารถแยกวิเคราะห์เอกสาร PDF และแยกข้อความ สารบัญ และเนื้อหาที่แท็ก ฯลฯ จาก PDF เพื่อการวิเคราะห์ข้อมูล

ต่อไปนี้เป็นรายการโดยย่อของคุณลักษณะการแยกวิเคราะห์:

  • การแยกข้อความ: แยกเนื้อหาข้อความจากเอกสาร PDF รวมถึงข้อมูลเค้าโครงและการจัดรูปแบบ เช่น สีข้อความ แบบอักษร และตำแหน่ง ฯลฯ
  • การแยกข้อมูลแบบอักษร: แยกข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdfminer.six

คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

แมคโอเอส


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

แยกข้อความจากเอกสาร PDF

คุณสามารถใช้ไลบรารี pdfminer.six ใน Python เพื่อแยกข้อความจากเอกสาร PDF ได้โดยใช้ฟังก์ชัน extract_text ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงข้อความที่แยกมาจากเอกสาร PDF:

แยกข้อมูลแบบอักษรจากเอกสาร PDF

นอกจากนี้เรายังสามารถดึงข้อมูลเกี่ยวกับแบบอักษรที่ใช้ในเอกสาร PDF เช่น ชื่อแบบอักษรและขนาดแบบอักษรโดยการวนซ้ำองค์ประกอบเค้าโครงของแต่ละหน้าใน PDF ตัวอย่างเช่น ตรวจสอบข้อมูลโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงข้อมูลแบบอักษรที่แยกมาจากเอกสาร PDF:

บทสรุป

โดยสรุป pdfminer.six มีความสามารถในการดึงข้อความและข้อมูลอื่น ๆ จากเอกสาร PDF แต่ขาดฟังก์ชันการทำงาน เช่น การแยกรูปภาพและตารางจาก PDF

สิ่งสำคัญที่ควรทราบคือไลบรารี pdfminer.six รองรับการแยกหน้า PDF เป็นรูปภาพ แต่จะแตกต่างจากการแยกรูปภาพที่ฝังอยู่ในเอกสาร PDF ซึ่ง pdfminer.six ไม่รองรับ อย่างไรก็ตาม นักพัฒนายังคงสามารถวางใจได้ในการแยกวิเคราะห์ PDF ใน Python เพื่อแยกข้อความสำหรับความต้องการในการวิเคราะห์ข้อมูล

สินค้าที่คล้ายกัน

 Thai