Thư viện hợp nhất Python PDF mã nguồn mở
Hãy dùng thử thư viện Python mã nguồn mở, thân thiện với người dùng này, cho phép bạn dễ dàng phân tách, nối, xoay, hoán đổi và xóa các trang, khiến nó trở thành một công cụ linh hoạt đáp ứng nhu cầu tài liệu PDF của bạn.
PyMuPDF là gì?
PyMuPDF, còn được gọi là Fitz, là một thư viện Python mã nguồn mở cung cấp một bộ công cụ toàn diện để làm việc với các tệp PDF. Với PyMuPDF, người dùng có thể thực hiện hiệu quả các tác vụ như mở tệp PDF, trích xuất văn bản và hình ảnh, thao tác các thuộc tính trang như xoay và cắt, tạo tài liệu PDF mới và chuyển đổi trang PDF thành hình ảnh.
PyMuPDF hỗ trợ một số tính năng. Tuy nhiên, trong bài đánh giá này, trọng tâm chính của chúng tôi sẽ là các tính năng chia tách, hợp nhất và quản lý trang PDF của thư viện. Để đánh giá chuyên sâu về khả năng trích xuất và phân tích cú pháp, vui lòng nhấp vào đây.
Bắt đầu với PyMuPDF
Bạn cần Python phiên bản 3.8.0 trở lên để cài đặt và sử dụng PyMuPDF. Vì vậy, trước tiên hãy cài đặt Python, sau đó sử dụng các lệnh bên dưới để cài đặt PyMuPDF trên máy của bạn bằng cách sử dụng pip và môi trường ảo.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Hệ điều hành Mac
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
các cửa sổ
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Nối nhiều tệp PDF thành một
Sử dụng thư viện PyMuPDF, chúng ta có thể kết hợp nhiều tệp PDF thành một tệp PDF duy nhất bằng Python. Đoạn mã sau đây nối hai tài liệu PDF lại với nhau bằng cách nối thêm từng tài liệu một và lưu nó dưới dạng tài liệu mới:
Tách PDF thành nhiều tệp
Cũng có thể chia tài liệu PDF thành nhiều tệp PDF bằng Python bằng thư viện PyMuPDF. Đoạn mã sau chia tách hai trang đầu tiên của tài liệu và lưu trữ chúng dưới dạng PDF riêng biệt:
Xoay trang PDF
Chúng tôi cũng có thể xoay các trang của tệp PDF bằng thư viện PyMuPDF. Chúng ta sẽ sử dụng hàm set_rotation để xoay các trang trong đoạn mã bên dưới:
đầu ra
Như chúng ta có thể thấy, tài liệu được xoay 90 độ.
Xóa trang PDF
PyMuPDF cũng có thể được sử dụng để xóa các trang của tệp PDF. Chúng tôi sẽ sử dụng chức năng delete_page để xóa các trang. Sau đây là tài liệu đầu vào và mã sẽ xóa trang thứ hai của nó:
đầu ra
Hình ảnh bên dưới hiển thị tệp PDF đã sửa đổi, từ đó trang thứ hai đã bị xóa.
Phần kết luận
PyMuPDF tự hào có những thế mạnh vượt trội trong việc hợp nhất và thao tác trang trong tài liệu PDF. Tính linh hoạt và hiệu quả của nó trong việc xoay, cắt, thay đổi kích thước và xóa các trang khiến nó trở thành sự lựa chọn mạnh mẽ cho các tác vụ sửa đổi PDF. Ngoài ra, khả năng hợp nhất nhiều tài liệu PDF một cách liền mạch của PyMuPDF là một lợi thế đáng chú ý.
Tuy nhiên, API tương đối phức tạp của nó có thể gây khó khăn cho người mới sử dụng và có thể có một số hạn chế trong việc xử lý các tệp PDF cực lớn hoặc phức tạp, điều này có thể ảnh hưởng đến hiệu suất. Tuy nhiên, khả năng mở rộng của nó trong các lĩnh vực này khiến nó trở thành một công cụ có giá trị cho những ai đang tìm kiếm khả năng kiểm soát chính xác nội dung PDF.