Thư viện Python chuyển đổi PDF sang HTML/XML
Thư viện Python mã nguồn mở và miễn phí để chuyển đổi tài liệu PDF sang HTML và XML.
Pdfminer.six là gì?
pdfminer.six là một thư viện Python mã nguồn mở và miễn phí có thể được sử dụng để chuyển đổi tài liệu PDF sang các định dạng khác.
Sau đây là danh sách tóm tắt các tính năng chuyển đổi PDF chính của nó:
- Chuyển đổi PDF sang HTML: Chuyển đổi tài liệu PDF sang định dạng HTML trong khi vẫn giữ nguyên cấu trúc và bố cục của tài liệu.
- Chuyển đổi PDF sang XML: Chuyển đổi các tệp PDF sang định dạng XML, nắm bắt mọi chi tiết, bao gồm phông chữ và các thành phần khác.
Bắt đầu với pdfminer.six
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Hệ điều hành MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Chuyển đổi PDF sang HTML
Chúng ta có thể chuyển đổi tài liệu PDF sang định dạng HTML bằng hàm extract_text_to_fp của thư viện pdfminer.six (với kiểu đầu ra được đặt thành html) do thư viện cung cấp, như được hiển thị trong đoạn mã bên dưới:
Đầu ra
Ảnh chụp màn hình sau đây hiển thị tệp HTML được tạo ra bằng cách chuyển đổi tài liệu PDF:
Chuyển đổi PDF sang XML
Chúng ta cũng có thể chuyển đổi tài liệu PDF sang định dạng XML bằng cùng hàm extract_text_to_fp (nhưng đặt kiểu đầu ra thành xml) do thư viện cung cấp, như được hiển thị trong đoạn mã bên dưới:
Đầu ra
Ảnh chụp màn hình sau đây hiển thị nội dung XML được chuyển đổi từ tài liệu PDF:
Phần kết luận
Nhìn chung, pdfminer.six hỗ trợ chuyển đổi tài liệu PDF sang định dạng XML mà không có bất kỳ vấn đề nào nhưng khi cố gắng chuyển đổi PDF sang HTML, nó có thể chuyển nội dung văn bản nhưng thường làm gián đoạn bố cục tổng thể.