Thư viện Python chuyển đổi PDF sang HTML/XML

Thư viện Python mã nguồn mở và miễn phí để chuyển đổi tài liệu PDF sang HTML và XML.

Pdfminer.six là gì?

pdfminer.six là một thư viện Python mã nguồn mở và miễn phí có thể được sử dụng để chuyển đổi tài liệu PDF sang các định dạng khác.

Sau đây là danh sách tóm tắt các tính năng chuyển đổi PDF chính của nó:

Chuyển đổi PDF sang HTML: Chuyển đổi tài liệu PDF sang định dạng HTML trong khi vẫn giữ nguyên cấu trúc và bố cục của tài liệu.
Chuyển đổi PDF sang XML: Chuyển đổi các tệp PDF sang định dạng XML, nắm bắt mọi chi tiết, bao gồm phông chữ và các thành phần khác.

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Bắt đầu với pdfminer.six

Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pip và môi trường ảo.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Hệ điều hành MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Cửa sổ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Chuyển đổi PDF sang HTML

Chúng ta có thể chuyển đổi tài liệu PDF sang định dạng HTML bằng hàm extract_text_to_fp của thư viện pdfminer.six (với kiểu đầu ra được đặt thành html) do thư viện cung cấp, như được hiển thị trong đoạn mã bên dưới:

Đầu ra

Ảnh chụp màn hình sau đây hiển thị tệp HTML được tạo ra bằng cách chuyển đổi tài liệu PDF:

Chuyển đổi PDF sang XML

Chúng ta cũng có thể chuyển đổi tài liệu PDF sang định dạng XML bằng cùng hàm extract_text_to_fp (nhưng đặt kiểu đầu ra thành xml) do thư viện cung cấp, như được hiển thị trong đoạn mã bên dưới:

Đầu ra

Ảnh chụp màn hình sau đây hiển thị nội dung XML được chuyển đổi từ tài liệu PDF:

Phần kết luận

Nhìn chung, pdfminer.six hỗ trợ chuyển đổi tài liệu PDF sang định dạng XML mà không có bất kỳ vấn đề nào nhưng khi cố gắng chuyển đổi PDF sang HTML, nó có thể chuyển nội dung văn bản nhưng thường làm gián đoạn bố cục tổng thể.

Thư viện Python chuyển đổi PDF sang HTML/XML

Thư viện Python mã nguồn mở và miễn phí để chuyển đổi tài liệu PDF sang HTML và XML.

Pdfminer.six là gì?

Thống kê GitHub

Bắt đầu với pdfminer.six

Linux

Hệ điều hành MacOS

Cửa sổ

Chuyển đổi PDF sang HTML

Đầu ra

Chuyển đổi PDF sang XML

Đầu ra

Phần kết luận

Sản Phẩm Tương Tự