Thư viện phân tích cú pháp PDF Python nguồn mở
Phân tích PDF và trích xuất văn bản, hình ảnh và tệp đính kèm từ tài liệu PDF bằng thư viện Python miễn phí.
Pypdf là gì?
Pypdf là một thư viện Python mã nguồn mở có giá trị được biết đến với khả năng thành thạo trong nhiều hoạt động PDF. Thư viện này có thể xử lý nhiều tác vụ và hoạt động liên quan đến tệp PDF, tuy nhiên, chúng tôi sẽ chỉ tập trung vào các tính năng phân tích cú pháp PDF của nó trong trang này.
Các tính năng phân tích đáng chú ý của pypdf bao gồm:
- Đọc tệp PDF: Pypdf cho phép bạn mở và đọc/phân tích tệp PDF, giúp trích xuất văn bản và dữ liệu khác từ tài liệu PDF hiện có một cách dễ dàng.
- Trích xuất nội dung: Bạn có thể phân tích và trích xuất văn bản, hình ảnh và tệp đính kèm từ tài liệu PDF theo yêu cầu của bạn.
Bắt đầu với pypdf
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Hệ điều hành MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Trích xuất văn bản từ PDF
Please check below code snippet for example:Đầu ra
Hình ảnh bên dưới hiển thị văn bản được trích xuất từ tệp PDF
Trích xuất hình ảnh từ PDF
Chúng ta có thể sử dụng thư viện pypdf để trích xuất hình ảnh từ một tài liệu PDF. Nó yêu cầu một thư viện bổ sung có tên là pillow để trích xuất hình ảnh. Nó lặp qua từng trang, xác định hình ảnh và lưu chúng dưới dạng các tệp hình ảnh riêng biệt, giữ nguyên tên gốc của chúng. Vui lòng kiểm tra đoạn mã bên dưới để biết ví dụ:
Đầu ra
Văn bản được chèn bằng mã trên được đánh dấu trong hộp màu đỏ bên dưới
Trích xuất tệp đính kèm từ PDF
Thư viện pypdf cho phép trích xuất và lưu tệp đính kèm từ tài liệu PDF. Nó lặp lại các tệp đính kèm và nội dung của chúng và lưu chúng vào các tệp riêng biệt. Vui lòng kiểm tra đoạn mã bên dưới để biết ví dụ:
Phần kết luận
Tóm lại, pypdf nổi bật như một thư viện Python đa năng để trích xuất các tính năng từ tài liệu PDF. Nó cung cấp khả năng mạnh mẽ để phân tích văn bản, hình ảnh và tệp đính kèm, khiến nó trở thành một công cụ có giá trị để trích xuất dữ liệu, phân tích và quản lý tài liệu.
Tuy nhiên, điều quan trọng cần lưu ý là pypdf đôi khi có thể gây ra các vấn đề khi trích xuất văn bản, chẳng hạn như khoảng trắng thừa giữa các từ và ký tự, có thể ảnh hưởng đến độ chính xác của nội dung được trích xuất. Bất chấp hạn chế này, pypdf vẫn là một công cụ hữu ích để phân tích cú pháp các tệp PDF, đặc biệt là trong các trường hợp mà định dạng chính xác của văn bản không phải là mối quan tâm chính.