ไลบรารี Python การแปลง PDF เป็น HTML/XML

ไลบรารี Python แบบโอเพ่นซอร์สฟรีเพื่อแปลงเอกสาร PDF เป็น HTML และ XML

pdfminer.six คืออะไร?

pdfminer.six เป็นไลบรารี Python แบบโอเพ่นซอร์สฟรี ซึ่งสามารถใช้เพื่อแปลงเอกสาร PDF เป็นรูปแบบอื่น

ต่อไปนี้เป็นรายการโดยย่อของคุณสมบัติการแปลง PDF หลัก:

  • การแปลง PDF เป็น HTML: แปลงเอกสาร PDF เป็นรูปแบบ HTML ในขณะที่ยังคงโครงสร้างและเค้าโครงของเอกสารไว้
  • การแปลง PDF เป็น XML: แปลงไฟล์ PDF เป็นรูปแบบ XML บันทึกรายละเอียดทั้งหมด รวมถึงแบบอักษรและองค์ประกอบอื่นๆ
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdfminer.six

คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

แมคโอเอส


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

แปลง PDF เป็น HTML

เราสามารถแปลงเอกสาร PDF เป็นรูปแบบ HTML โดยใช้ฟังก์ชัน extract_text_to_fp ของไลบรารี pdfminer.six (โดยตั้งค่าประเภทเอาต์พุตเป็น html) ที่ไลบรารีจัดเตรียมไว้ให้ ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงไฟล์ HTML ที่สร้างขึ้นโดยการแปลงไฟล์ PDF:

การแปลง PDF เป็น XML

นอกจากนี้เรายังสามารถแปลงเอกสาร PDF เป็นรูปแบบ XML โดยใช้ฟังก์ชัน extract_text_to_fp เดียวกัน (แต่ตั้งค่าประเภทเอาต์พุตเป็น xml) ที่ได้รับจากไลบรารี ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงเนื้อหา XML ที่แปลงจากเอกสาร PDF:

บทสรุป

โดยทั่วไป pdfminer.six รองรับการแปลงเอกสาร PDF เป็นรูปแบบ XML โดยไม่มีปัญหาใดๆ แต่เมื่อพยายามแปลง PDF เป็น HTML จะสามารถจัดการถ่ายโอนเนื้อหาข้อความได้ แต่มักจะขัดขวางเค้าโครงโดยรวม

สินค้าที่คล้ายกัน

 Thai