การแปลง PDF เป็น HTML/XML ไลบรารี Python

ไลบรารี Python โอเพนซอร์สฟรีสำหรับแปลงเอกสาร PDF เป็น HTML และ XML

pdfminer.six คืออะไร?

pdfminer.six เป็นไลบรารี Python โอเพนซอร์สฟรีที่สามารถใช้แปลงเอกสาร PDF เป็นรูปแบบอื่นได้

ต่อไปนี้เป็นรายการคุณสมบัติการแปลง PDF หลักโดยย่อ:

  • การแปลง PDF เป็น HTML: แปลงเอกสาร PDF เป็นรูปแบบ HTML ในขณะที่รักษาโครงสร้างและเค้าโครงของเอกสารไว้
  • การแปลง PDF เป็น XML: แปลงไฟล์ PDF เป็นรูปแบบ XML เก็บรายละเอียดทั้งหมด รวมถึงแบบอักษรและองค์ประกอบอื่นๆ
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdfminer.six

คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ระบบปฏิบัติการ MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

แปลง PDF เป็น HTML

เราสามารถแปลงเอกสาร PDF เป็นรูปแบบ HTML ได้โดยใช้ฟังก์ชัน extract_text_to_fp ของไลบรารี pdfminer.six (โดยกำหนดประเภทเอาต์พุตเป็น html) ที่จัดเตรียมไว้โดยไลบรารี ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงไฟล์ HTML ที่สร้างขึ้นโดยการแปลงเอกสาร PDF:

การแปลง PDF เป็น XML

เรายังสามารถแปลงเอกสาร PDF เป็นรูปแบบ XML ได้โดยใช้ฟังก์ชัน extract_text_to_fp เดียวกัน (แต่กำหนดประเภทเอาต์พุตเป็น xml) ที่ไลบรารีจัดเตรียมไว้ให้ ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงเนื้อหา XML ที่แปลงจากเอกสาร PDF:

บทสรุป

โดยทั่วไป pdfminer.six รองรับการแปลงเอกสาร PDF เป็นรูปแบบ XML โดยไม่มีปัญหาใดๆ แต่เมื่อพยายามแปลง PDF เป็น HTML โปรแกรมจะจัดการโอนเนื้อหาข้อความได้ แต่ก็มักจะรบกวนรูปแบบโดยรวม

สินค้าที่คล้ายกัน

 Thai