Thư viện phân tích cú pháp PDF Python nguồn mở
Thư viện Python miễn phí và mã nguồn mở để phân tích cú pháp PDF và trích xuất văn bản có thông tin định dạng.
Pdfminer.six là gì?
Pdfminer.six là một thư viện Python nguồn mở và bộ công cụ để trích xuất dữ liệu từ các tài liệu PDF. Bạn có thể phân tích cú pháp các tài liệu PDF và trích xuất văn bản, mục lục & nội dung được gắn thẻ, v.v. từ các tệp PDF để phân tích dữ liệu.
Sau đây là danh sách tóm tắt các tính năng phân tích cú pháp của nó:
- Trích xuất văn bản:Trích xuất nội dung văn bản từ tài liệu PDF bao gồm thông tin bố cục và định dạng như màu chữ, phông chữ và vị trí, v.v.
- Trích xuất thông tin phông chữ: Trích xuất thông tin về phông chữ được sử dụng trong tài liệu PDF.
Bắt đầu với pdfminer.six
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Hệ điều hành MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Trích xuất văn bản từ tài liệu PDF
Bạn có thể sử dụng thư viện pdfminer.six trong Python để trích xuất văn bản từ tài liệu PDF bằng cách sử dụng hàm extract_text như được hiển thị trong đoạn mã bên dưới:
Đầu ra
Ảnh chụp màn hình sau đây hiển thị văn bản được trích xuất từ tài liệu PDF:
Trích xuất thông tin phông chữ từ tài liệu PDF
Chúng ta cũng có thể trích xuất thông tin về các phông chữ được sử dụng trong Tài liệu PDF như tên phông chữ và kích thước phông chữ bằng cách lặp qua các thành phần bố cục của từng trang trong PDF. Ví dụ, hãy kiểm tra đoạn mã bên dưới:
Đầu ra
Ảnh chụp màn hình sau đây hiển thị thông tin phông chữ được trích xuất từ tài liệu PDF:
Phần kết luận
Tóm lại, pdfminer.six có khả năng trích xuất văn bản và thông tin khác từ tài liệu PDF nhưng lại thiếu các chức năng như trích xuất hình ảnh và bảng từ PDF.
Điều quan trọng cần lưu ý là thư viện pdfminer.six hỗ trợ trích xuất các trang PDF dưới dạng hình ảnh nhưng khác với việc trích xuất hình ảnh được nhúng trong tài liệu PDF mà pdfminer.six không hỗ trợ. Tuy nhiên, các nhà phát triển vẫn có thể dựa vào nó để phân tích cú pháp PDF trong Python để trích xuất văn bản cho nhu cầu phân tích dữ liệu của họ.