Thư viện chú thích PDF Python mã nguồn mở
Hãy dùng thử thư viện Python mã nguồn mở và miễn phí này để thêm và trích xuất chú thích từ tài liệu PDF.
Pypdf là gì?
Pypdf là thư viện python mã nguồn mở và miễn phí được biết đến với bộ tính năng đa dạng để xử lý tài liệu PDF trong môi trường python. Công cụ này rất hữu ích cho nhiều thao tác PDF khác nhau nhưng chúng tôi sẽ tập trung vào các tính năng liên quan đến chú thích của nó trong bài đánh giá này.
Các tính năng đáng chú ý của pypdf liên quan đến chú thích bao gồm:
- Thêm chú thích hình dạng: Chúng ta có thể vẽ các hình dạng như đường thẳng, hình chữ nhật, hình elip và đa giác, v.v. trên các khu vực cụ thể của trang PDF dưới dạng chú thích.
- Thêm chú thích văn bản: Chúng tôi có thể thêm chú thích văn bản vào các vị trí cụ thể của trang PDF.
- Thêm chú thích liên kết: Bạn cũng có thể thêm chú thích liên kết (như siêu liên kết) vào tài liệu PDF.
- Trích xuất chú thích: Chúng tôi có thể lặp lại và trích xuất thông tin về tất cả chú thích trong tài liệu PDF bằng thư viện pypdf.
Bắt đầu với pypdf
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python, sau đó sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng cách sử dụng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Hệ điều hành Mac
python -m venv venv
source venv/bin/activate
pip install pypdf
các cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Thêm chú thích hình chữ nhật vào PDF
Chúng ta có thể thêm chú thích hình chữ nhật vào tài liệu PDF bằng thư viện pypdf. Chúng ta sẽ sử dụng lớp Rectangle của mô-đun pypdf.annotations từ thư viện pypdf để xác định hình chữ nhật. Sau đó, chúng ta sẽ sử dụng phương thức add_annotations của lớp PDFWriter để thêm chú thích hình chữ nhật vào tệp PDF.
Kiểm tra đoạn mã dưới đây để biết chi tiết:
đầu ra
Trong ảnh chụp màn hình bên dưới, bạn có thể thấy hình chữ nhật đó được thêm vào để chú thích từ Nguồn mở:
Thêm chú thích văn bản vào PDF
Chúng tôi tạo chú thích văn bản bằng cách sử dụng lớp Văn bản từ mô-đun pypdf.annotations của thư viện pypdf. Sau đó, chúng ta có thể sử dụng phương thức add_annotations của lớp PDFWriter từ thư viện pypdf để thêm chú thích vào tệp PDF. Chú thích văn bản được thêm dưới dạng biểu tượng mở rộng và hiển thị văn bản khi nhấp vào biểu tượng. Kiểm tra đoạn mã dưới đây để biết chi tiết:
đầu ra
Như chúng ta có thể thấy trong video màn hình bên dưới, mã ở trên sẽ thêm một biểu tượng vào tệp PDF ở vị trí được chỉ định hiển thị chú thích văn bản khi nhấp vào biểu tượng:
Thêm chú thích liên kết vào PDF
Chú thích liên kết được tạo bằng lớp Liên kết từ mô-đun pypdf.annotations. Tuy nhiên, vấn đề với chú thích liên kết là nó chỉ thêm liên kết chứ không hiển thị. Để giải quyết vấn đề này, chúng tôi sẽ kết hợp một hình chữ nhật bằng lớp Rectangle từ mô-đun pypdf.annotations như chúng tôi đã giải thích trước đó. Bằng cách này, người dùng có thể xác định trực quan vị trí nơi chú thích liên kết được thêm vào. Kiểm tra đoạn mã dưới đây để hiểu rõ hơn:
đầu ra
Như chúng ta có thể thấy ở đầu ra, hình chữ nhật đóng vai trò là một khu vực mà khi được nhấp vào sẽ chuyển hướng người dùng đến liên kết đã chỉ định.
Trích xuất chú thích từ PDF
Chúng tôi có thể trích xuất các chú thích từ PDF bằng thư viện pypdf. Chúng tôi lặp qua tất cả các chú thích trên các trang PDF rồi sử dụng phương thức get_object để lấy đối tượng chú thích. Sau đó, chúng tôi trích xuất thông tin liên quan từ đối tượng. Kiểm tra đoạn mã dưới đây để biết chi tiết:
đầu ra
Như chúng ta có thể thấy trong ảnh chụp màn hình bên dưới, chương trình đã trả về loại chú thích và tọa độ của các chú thích trong tài liệu PDF:
Phần kết luận
Pypdf trao quyền cho các nhà phát triển Python thêm các loại chú thích khác nhau vào tệp PDF và truy cập thông tin cần thiết về chú thích, chẳng hạn như loại và vị trí của chúng, khiến nó trở thành lựa chọn thiết thực cho các tác vụ yêu cầu thêm chú thích và trích xuất dữ liệu về chú thích.