การแปลง PDF เป็น HTML/XML ไลบรารี Python
ไลบรารี Python โอเพนซอร์สฟรีสำหรับแปลงเอกสาร PDF เป็น HTML และ XML
pdfminer.six คืออะไร?
pdfminer.six เป็นไลบรารี Python โอเพนซอร์สฟรีที่สามารถใช้แปลงเอกสาร PDF เป็นรูปแบบอื่นได้
ต่อไปนี้เป็นรายการคุณสมบัติการแปลง PDF หลักโดยย่อ:
- การแปลง PDF เป็น HTML: แปลงเอกสาร PDF เป็นรูปแบบ HTML ในขณะที่รักษาโครงสร้างและเค้าโครงของเอกสารไว้
- การแปลง PDF เป็น XML: แปลงไฟล์ PDF เป็นรูปแบบ XML เก็บรายละเอียดทั้งหมด รวมถึงแบบอักษรและองค์ประกอบอื่นๆ
เริ่มต้นใช้งาน pdfminer.six
คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน
ลินุกซ์
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ระบบปฏิบัติการ MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
หน้าต่าง
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
แปลง PDF เป็น HTML
เราสามารถแปลงเอกสาร PDF เป็นรูปแบบ HTML ได้โดยใช้ฟังก์ชัน extract_text_to_fp ของไลบรารี pdfminer.six (โดยกำหนดประเภทเอาต์พุตเป็น html) ที่จัดเตรียมไว้โดยไลบรารี ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงไฟล์ HTML ที่สร้างขึ้นโดยการแปลงเอกสาร PDF:
การแปลง PDF เป็น XML
เรายังสามารถแปลงเอกสาร PDF เป็นรูปแบบ XML ได้โดยใช้ฟังก์ชัน extract_text_to_fp เดียวกัน (แต่กำหนดประเภทเอาต์พุตเป็น xml) ที่ไลบรารีจัดเตรียมไว้ให้ ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:
เอาท์พุต
ภาพหน้าจอต่อไปนี้แสดงเนื้อหา XML ที่แปลงจากเอกสาร PDF:
บทสรุป
โดยทั่วไป pdfminer.six รองรับการแปลงเอกสาร PDF เป็นรูปแบบ XML โดยไม่มีปัญหาใดๆ แต่เมื่อพยายามแปลง PDF เป็น HTML โปรแกรมจะจัดการโอนเนื้อหาข้อความได้ แต่ก็มักจะรบกวนรูปแบบโดยรวม