ไลบรารี Python การแปลง PDF เป็น HTML/XML
ไลบรารี Python แบบโอเพ่นซอร์สฟรีเพื่อแปลงเอกสาร PDF เป็น HTML และ XML
pdfminer.six คืออะไร?
pdfminer.six เป็นไลบรารี Python แบบโอเพ่นซอร์สฟรี ซึ่งสามารถใช้เพื่อแปลงเอกสาร PDF เป็นรูปแบบอื่น
ต่อไปนี้เป็นรายการโดยย่อของคุณสมบัติการแปลง PDF หลัก:
- การแปลง PDF เป็น HTML: แปลงเอกสาร PDF เป็นรูปแบบ HTML ในขณะที่ยังคงโครงสร้างและเค้าโครงของเอกสารไว้
- การแปลง PDF เป็น XML: แปลงไฟล์ PDF เป็นรูปแบบ XML บันทึกรายละเอียดทั้งหมด รวมถึงแบบอักษรและองค์ประกอบอื่นๆ
เริ่มต้นใช้งาน pdfminer.six
คุณต้องมี Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ขั้นแรกให้ติดตั้ง Python จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน.
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
แมคโอเอส
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
แปลง PDF เป็น HTML
เราสามารถแปลงเอกสาร PDF เป็นรูปแบบ HTML โดยใช้ฟังก์ชัน extract_text_to_fp ของไลบรารี pdfminer.six (โดยตั้งค่าประเภทเอาต์พุตเป็น html) ที่ไลบรารีจัดเตรียมไว้ให้ ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงไฟล์ HTML ที่สร้างขึ้นโดยการแปลงไฟล์ PDF:
การแปลง PDF เป็น XML
นอกจากนี้เรายังสามารถแปลงเอกสาร PDF เป็นรูปแบบ XML โดยใช้ฟังก์ชัน extract_text_to_fp เดียวกัน (แต่ตั้งค่าประเภทเอาต์พุตเป็น xml) ที่ได้รับจากไลบรารี ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงเนื้อหา XML ที่แปลงจากเอกสาร PDF:
บทสรุป
โดยทั่วไป pdfminer.six รองรับการแปลงเอกสาร PDF เป็นรูปแบบ XML โดยไม่มีปัญหาใดๆ แต่เมื่อพยายามแปลง PDF เป็น HTML จะสามารถจัดการถ่ายโอนเนื้อหาข้อความได้ แต่มักจะขัดขวางเค้าโครงโดยรวม