Thư viện phân tích cú pháp PDF Python nguồn mở

Phân tích PDF và trích xuất văn bản, hình ảnh và tệp đính kèm từ tài liệu PDF bằng thư viện Python miễn phí.

Pypdf là gì?

Pypdf là một thư viện Python mã nguồn mở có giá trị được biết đến với khả năng thành thạo trong nhiều hoạt động PDF. Thư viện này có thể xử lý nhiều tác vụ và hoạt động liên quan đến tệp PDF, tuy nhiên, chúng tôi sẽ chỉ tập trung vào các tính năng phân tích cú pháp PDF của nó trong trang này.

Các tính năng phân tích đáng chú ý của pypdf bao gồm:

  • Đọc tệp PDF: Pypdf cho phép bạn mở và đọc/phân tích tệp PDF, giúp trích xuất văn bản và dữ liệu khác từ tài liệu PDF hiện có một cách dễ dàng.
  • Trích xuất nội dung: Bạn có thể phân tích và trích xuất văn bản, hình ảnh và tệp đính kèm từ tài liệu PDF theo yêu cầu của bạn.
GitHub

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Bắt đầu với pypdf

Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pipmôi trường ảo.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Hệ điều hành MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

Cửa sổ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Trích xuất văn bản từ PDF

Please check below code snippet for example:

Đầu ra

Hình ảnh bên dưới hiển thị văn bản được trích xuất từ tệp PDF

Trích xuất hình ảnh từ PDF

Chúng ta có thể sử dụng thư viện pypdf để trích xuất hình ảnh từ một tài liệu PDF. Nó yêu cầu một thư viện bổ sung có tên là pillow để trích xuất hình ảnh. Nó lặp qua từng trang, xác định hình ảnh và lưu chúng dưới dạng các tệp hình ảnh riêng biệt, giữ nguyên tên gốc của chúng. Vui lòng kiểm tra đoạn mã bên dưới để biết ví dụ:

Đầu ra

Văn bản được chèn bằng mã trên được đánh dấu trong hộp màu đỏ bên dưới

Trích xuất tệp đính kèm từ PDF

Thư viện pypdf cho phép trích xuất và lưu tệp đính kèm từ tài liệu PDF. Nó lặp lại các tệp đính kèm và nội dung của chúng và lưu chúng vào các tệp riêng biệt. Vui lòng kiểm tra đoạn mã bên dưới để biết ví dụ:

Phần kết luận

Tóm lại, pypdf nổi bật như một thư viện Python đa năng để trích xuất các tính năng từ tài liệu PDF. Nó cung cấp khả năng mạnh mẽ để phân tích văn bản, hình ảnh và tệp đính kèm, khiến nó trở thành một công cụ có giá trị để trích xuất dữ liệu, phân tích và quản lý tài liệu.

Tuy nhiên, điều quan trọng cần lưu ý là pypdf đôi khi có thể gây ra các vấn đề khi trích xuất văn bản, chẳng hạn như khoảng trắng thừa giữa các từ và ký tự, có thể ảnh hưởng đến độ chính xác của nội dung được trích xuất. Bất chấp hạn chế này, pypdf vẫn là một công cụ hữu ích để phân tích cú pháp các tệp PDF, đặc biệt là trong các trường hợp mà định dạng chính xác của văn bản không phải là mối quan tâm chính.

Sản Phẩm Tương Tự

 Vietnamese