Thư viện Python chuyển đổi PDF sang HTML/XML
Thư viện Python mã nguồn mở và miễn phí để chuyển đổi tài liệu PDF thành HTML & XML.
pdfminer.six là gì?
pdfminer.six là thư viện Python mã nguồn mở và miễn phí, có thể được sử dụng để chuyển đổi tài liệu PDF sang các định dạng khác.
Dưới đây là danh sách ngắn gọn các tính năng chuyển đổi PDF chính của nó:
- Chuyển đổi PDF sang HTML: Chuyển đổi tài liệu PDF sang định dạng HTML trong khi vẫn giữ nguyên cấu trúc và bố cục của tài liệu.
- Chuyển đổi PDF sang XML: Chuyển đổi tệp PDF sang định dạng XML, ghi lại tất cả chi tiết, bao gồm phông chữ và các thành phần khác.
Bắt đầu với pdfminer.six
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python, sau đó sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng cách sử dụng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Hệ điều hành Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
các cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Chuyển đổi PDF sang HTML
Chúng ta có thể chuyển đổi tài liệu PDF sang định dạng HTML bằng cách sử dụng hàm extract_text_to_fp của thư viện pdfminer.six (với loại đầu ra được đặt thành html) do thư viện cung cấp, như minh họa trong đoạn mã bên dưới:
đầu ra
Ảnh chụp màn hình sau đây hiển thị tệp HTML được tạo bằng cách chuyển đổi tài liệu PDF:
Chuyển đổi PDF sang XML
Chúng ta cũng có thể chuyển đổi tài liệu PDF sang định dạng XML bằng cách sử dụng cùng hàm extract_text_to_fp (nhưng với loại đầu ra được đặt thành xml) do thư viện cung cấp, như minh họa trong đoạn mã bên dưới:
đầu ra
Ảnh chụp màn hình sau đây hiển thị nội dung XML được chuyển đổi từ tài liệu PDF:
Phần kết luận
Nói chung, pdfminer.six hỗ trợ chuyển đổi tài liệu PDF sang định dạng XML mà không gặp vấn đề gì nhưng khi cố gắng chuyển đổi PDF sang HTML, nó quản lý để chuyển nội dung văn bản nhưng thường làm gián đoạn bố cục tổng thể.