Thư viện hợp nhất PDF Python nguồn mở

Hãy thử thư viện Python mã nguồn mở, thân thiện với người dùng này cho phép bạn dễ dàng tách, nối, xoay, hoán đổi và xóa các trang, biến nó thành một công cụ đa năng đáp ứng nhu cầu xử lý tài liệu PDF của bạn.

PyMuPDF là gì?

PyMuPDF, còn được gọi là Fitz, là một thư viện Python mã nguồn mở cung cấp một bộ công cụ toàn diện để làm việc với các tệp PDF. Với PyMuPDF, người dùng có thể thực hiện hiệu quả các tác vụ như mở tệp PDF, trích xuất văn bản và hình ảnh, thao tác các thuộc tính trang như xoay và cắt, tạo tài liệu PDF mới và chuyển đổi các trang PDF thành hình ảnh.

PyMuPDF hỗ trợ một số tính năng. Tuy nhiên, trong bài đánh giá này, trọng tâm chính của chúng tôi sẽ là các tính năng chia tách, hợp nhất và quản lý trang PDF của thư viện. Để đánh giá sâu hơn về khả năng trích xuất và phân tích cú pháp, vui lòng nhấp vào đây.

GitHub

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Bắt đầu với PyMuPDF

Bạn cần Python phiên bản 3.8.0 trở lên để cài đặt và sử dụng PyMuPDF. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt PyMuPDF trên máy của bạn bằng pipmôi trường ảo.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Hệ điều hành MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Cửa sổ


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf 

Nối nhiều tệp PDF thành một

Sử dụng thư viện PyMuPDF, chúng ta có thể kết hợp nhiều tệp PDF thành một tệp PDF duy nhất trong Python. Đoạn mã sau đây sẽ kết hợp hai tài liệu PDF với nhau bằng cách thêm từng tệp một và lưu dưới dạng một tài liệu mới:

Chia PDF thành nhiều tập tin

Bạn cũng có thể chia một tài liệu PDF thành nhiều PDF trong Python bằng thư viện PyMuPDF. Đoạn mã sau đây chia hai trang đầu tiên của một tài liệu và lưu trữ chúng dưới dạng PDF riêng biệt:

Xoay trang PDF

Chúng ta cũng có thể xoay các trang của tệp PDF bằng thư viện PyMuPDF. Chúng ta sẽ sử dụng hàm set_rotation để xoay các trang trong đoạn mã dưới đây:

Đầu ra

Như chúng ta có thể thấy, tài liệu được xoay 90 độ.

Xóa trang PDF

PyMuPDF cũng có thể được sử dụng để xóa các trang của tệp PDF. Chúng ta sẽ sử dụng hàm delete_page để xóa các trang. Sau đây là tài liệu là đầu vào và mã sẽ xóa trang thứ hai của nó:

Đầu ra

Hình ảnh bên dưới hiển thị tệp PDF đã chỉnh sửa, trong đó trang thứ hai đã bị xóa.

Phần kết luận

PyMuPDF tự hào có những điểm mạnh đáng chú ý trong việc hợp nhất và thao tác trang trong các tài liệu PDF. Tính linh hoạt và hiệu quả trong việc xoay, cắt, thay đổi kích thước và xóa các trang khiến nó trở thành lựa chọn mạnh mẽ cho các tác vụ chỉnh sửa PDF. Ngoài ra, khả năng hợp nhất nhiều tài liệu PDF một cách liền mạch của PyMuPDF là một lợi thế đáng chú ý.

Tuy nhiên, API tương đối phức tạp của nó có thể tạo ra đường cong học tập cho người mới và có thể có một số hạn chế trong việc xử lý các tệp PDF cực lớn hoặc phức tạp, điều này có thể ảnh hưởng đến hiệu suất. Tuy nhiên, khả năng mở rộng của nó trong các lĩnh vực này khiến nó trở thành một công cụ có giá trị cho những người tìm kiếm quyền kiểm soát chính xác đối với nội dung PDF.

Sản Phẩm Tương Tự

 Vietnamese