Thư viện Python chuyển đổi PDF sang HTML/XML

Thư viện Python mã nguồn mở và miễn phí để chuyển đổi tài liệu PDF thành HTML & XML.

pdfminer.six là gì?

pdfminer.six là thư viện Python mã nguồn mở và miễn phí, có thể được sử dụng để chuyển đổi tài liệu PDF sang các định dạng khác.

Dưới đây là danh sách ngắn gọn các tính năng chuyển đổi PDF chính của nó:

  • Chuyển đổi PDF sang HTML: Chuyển đổi tài liệu PDF sang định dạng HTML trong khi vẫn giữ nguyên cấu trúc và bố cục của tài liệu.
  • Chuyển đổi PDF sang XML: Chuyển đổi tệp PDF sang định dạng XML, ghi lại tất cả chi tiết, bao gồm phông chữ và các thành phần khác.
GitHub

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Bắt đầu với pdfminer.six

Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python, sau đó sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng cách sử dụng pipmôi trường ảo.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Hệ điều hành Mac


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

các cửa sổ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Chuyển đổi PDF sang HTML

Chúng ta có thể chuyển đổi tài liệu PDF sang định dạng HTML bằng cách sử dụng hàm extract_text_to_fp của thư viện pdfminer.six (với loại đầu ra được đặt thành html) do thư viện cung cấp, như minh họa trong đoạn mã bên dưới:

đầu ra

Ảnh chụp màn hình sau đây hiển thị tệp HTML được tạo bằng cách chuyển đổi tài liệu PDF:

Chuyển đổi PDF sang XML

Chúng ta cũng có thể chuyển đổi tài liệu PDF sang định dạng XML bằng cách sử dụng cùng hàm extract_text_to_fp (nhưng với loại đầu ra được đặt thành xml) do thư viện cung cấp, như minh họa trong đoạn mã bên dưới:

đầu ra

Ảnh chụp màn hình sau đây hiển thị nội dung XML được chuyển đổi từ tài liệu PDF:

Phần kết luận

Nói chung, pdfminer.six hỗ trợ chuyển đổi tài liệu PDF sang định dạng XML mà không gặp vấn đề gì nhưng khi cố gắng chuyển đổi PDF sang HTML, nó quản lý để chuyển nội dung văn bản nhưng thường làm gián đoạn bố cục tổng thể.

Sản Phẩm Tương Tự

 Vietnamese