Thư viện phân tích cú pháp PDF Python nguồn mở

Thư viện Python miễn phí và mã nguồn mở để phân tích cú pháp PDF và trích xuất văn bản có thông tin định dạng.

Pdfminer.six là gì?

Pdfminer.six là một thư viện Python nguồn mở và bộ công cụ để trích xuất dữ liệu từ các tài liệu PDF. Bạn có thể phân tích cú pháp các tài liệu PDF và trích xuất văn bản, mục lục & nội dung được gắn thẻ, v.v. từ các tệp PDF để phân tích dữ liệu.

Sau đây là danh sách tóm tắt các tính năng phân tích cú pháp của nó:

  • Trích xuất văn bản:Trích xuất nội dung văn bản từ tài liệu PDF bao gồm thông tin bố cục và định dạng như màu chữ, phông chữ và vị trí, v.v.
  • Trích xuất thông tin phông chữ: Trích xuất thông tin về phông chữ được sử dụng trong tài liệu PDF.
GitHub

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Bắt đầu với pdfminer.six

Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pipmôi trường ảo.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Hệ điều hành MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Cửa sổ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Trích xuất văn bản từ tài liệu PDF

Bạn có thể sử dụng thư viện pdfminer.six trong Python để trích xuất văn bản từ tài liệu PDF bằng cách sử dụng hàm extract_text như được hiển thị trong đoạn mã bên dưới:

Đầu ra

Ảnh chụp màn hình sau đây hiển thị văn bản được trích xuất từ tài liệu PDF:

Trích xuất thông tin phông chữ từ tài liệu PDF

Chúng ta cũng có thể trích xuất thông tin về các phông chữ được sử dụng trong Tài liệu PDF như tên phông chữ và kích thước phông chữ bằng cách lặp qua các thành phần bố cục của từng trang trong PDF. Ví dụ, hãy kiểm tra đoạn mã bên dưới:

Đầu ra

Ảnh chụp màn hình sau đây hiển thị thông tin phông chữ được trích xuất từ tài liệu PDF:

Phần kết luận

Tóm lại, pdfminer.six có khả năng trích xuất văn bản và thông tin khác từ tài liệu PDF nhưng lại thiếu các chức năng như trích xuất hình ảnh và bảng từ PDF.

Điều quan trọng cần lưu ý là thư viện pdfminer.six hỗ trợ trích xuất các trang PDF dưới dạng hình ảnh nhưng khác với việc trích xuất hình ảnh được nhúng trong tài liệu PDF mà pdfminer.six không hỗ trợ. Tuy nhiên, các nhà phát triển vẫn có thể dựa vào nó để phân tích cú pháp PDF trong Python để trích xuất văn bản cho nhu cầu phân tích dữ liệu của họ.

Sản Phẩm Tương Tự

 Vietnamese