การแปลง PDF เป็น HTML/XML ไลบรารี Python

ไลบรารี Python โอเพนซอร์สฟรีสำหรับแปลงเอกสาร PDF เป็น HTML และ XML

pdfminer.six คืออะไร?

pdfminer.six เป็นไลบรารี Python โอเพนซอร์สฟรีที่สามารถใช้แปลงเอกสาร PDF เป็นรูปแบบอื่นได้

ต่อไปนี้เป็นรายการคุณสมบัติการแปลง PDF หลักโดยย่อ:

การแปลง PDF เป็น HTML: แปลงเอกสาร PDF เป็นรูปแบบ HTML ในขณะที่รักษาโครงสร้างและเค้าโครงของเอกสารไว้
การแปลง PDF เป็น XML: แปลงไฟล์ PDF เป็นรูปแบบ XML เก็บรายละเอียดทั้งหมด รวมถึงแบบอักษรและองค์ประกอบอื่นๆ

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdfminer.six

คุณต้องใช้ Python เวอร์ชัน 3.6.0 ขึ้นไปจึงจะติดตั้งและใช้ pypdf ได้ ดังนั้น ให้ติดตั้ง Python ก่อน จากนั้นใช้คำสั่งด้านล่างเพื่อติดตั้ง pypdf บนเครื่องของคุณโดยใช้ pip และ สภาพแวดล้อมเสมือน

ลินุกซ์


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ระบบปฏิบัติการ MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

หน้าต่าง


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

แปลง PDF เป็น HTML

เราสามารถแปลงเอกสาร PDF เป็นรูปแบบ HTML ได้โดยใช้ฟังก์ชัน extract_text_to_fp ของไลบรารี pdfminer.six (โดยกำหนดประเภทเอาต์พุตเป็น html) ที่จัดเตรียมไว้โดยไลบรารี ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงไฟล์ HTML ที่สร้างขึ้นโดยการแปลงเอกสาร PDF:

การแปลง PDF เป็น XML

เรายังสามารถแปลงเอกสาร PDF เป็นรูปแบบ XML ได้โดยใช้ฟังก์ชัน extract_text_to_fp เดียวกัน (แต่กำหนดประเภทเอาต์พุตเป็น xml) ที่ไลบรารีจัดเตรียมไว้ให้ ดังที่แสดงในตัวอย่างโค้ดด้านล่าง:

เอาท์พุต

ภาพหน้าจอต่อไปนี้แสดงเนื้อหา XML ที่แปลงจากเอกสาร PDF:

บทสรุป

โดยทั่วไป pdfminer.six รองรับการแปลงเอกสาร PDF เป็นรูปแบบ XML โดยไม่มีปัญหาใดๆ แต่เมื่อพยายามแปลง PDF เป็น HTML โปรแกรมจะจัดการโอนเนื้อหาข้อความได้ แต่ก็มักจะรบกวนรูปแบบโดยรวม

การแปลง PDF เป็น HTML/XML ไลบรารี Python

ไลบรารี Python โอเพนซอร์สฟรีสำหรับแปลงเอกสาร PDF เป็น HTML และ XML

pdfminer.six คืออะไร?

สถิติ GitHub

เริ่มต้นใช้งาน pdfminer.six

ลินุกซ์

ระบบปฏิบัติการ MacOS

หน้าต่าง

แปลง PDF เป็น HTML

เอาท์พุต

การแปลง PDF เป็น XML

เอาท์พุต

บทสรุป

สินค้าที่คล้ายกัน