Thư viện trình phân tích cú pháp PDF Python mã nguồn mở
Thư viện Python mã nguồn mở và miễn phí để phân tích các tệp PDF và trích xuất văn bản cùng với thông tin định dạng.
pdfminer.six là gì?
Pdfminer.six là một thư viện và bộ công cụ Python mã nguồn mở để trích xuất dữ liệu từ các tài liệu PDF. Bạn có thể phân tích cú pháp tài liệu PDF và trích xuất văn bản, mục lục & nội dung được gắn thẻ, v.v. từ tệp PDF để phân tích dữ liệu.
Dưới đây là danh sách ngắn gọn các tính năng phân tích cú pháp của nó:
- Trích xuất văn bản: Trích xuất nội dung văn bản từ tài liệu PDF bao gồm thông tin về bố cục và định dạng như màu văn bản, phông chữ và vị trí, v.v.
- Trích xuất thông tin phông chữ: Trích xuất thông tin về phông chữ được sử dụng trong tài liệu PDF.
Bắt đầu với pdfminer.six
Bạn cần Python phiên bản 3.6.0 trở lên để cài đặt và sử dụng pypdf. Vì vậy, trước tiên hãy cài đặt Python, sau đó sử dụng các lệnh bên dưới để cài đặt pypdf trên máy của bạn bằng cách sử dụng pip và môi trường ảo.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Hệ điều hành Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
các cửa sổ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Trích xuất văn bản từ tài liệu PDF
Bạn có thể sử dụng thư viện pdfminer.six trong Python để trích xuất văn bản từ tài liệu PDF bằng cách sử dụng hàm extract_text như trong đoạn mã bên dưới:
đầu ra
Ảnh chụp màn hình sau đây hiển thị văn bản được trích xuất từ tài liệu PDF:
Trích xuất thông tin phông chữ từ tài liệu PDF
Chúng tôi cũng có thể trích xuất thông tin về các phông chữ được sử dụng trong Tài liệu PDF như tên phông chữ và kích thước phông chữ bằng cách lặp qua các thành phần bố cục của từng trang trong PDF. Ví dụ: kiểm tra đoạn mã bên dưới:
đầu ra
Ảnh chụp màn hình sau đây hiển thị thông tin phông chữ được trích xuất từ tài liệu PDF:
Phần kết luận
Tóm lại, pdfminer.six có khả năng trích xuất văn bản và thông tin khác từ tài liệu PDF nhưng nó thiếu các chức năng như trích xuất hình ảnh và bảng biểu từ tệp PDF.
Điều quan trọng cần lưu ý là thư viện pdfminer.six hỗ trợ trích xuất các trang PDF dưới dạng hình ảnh nhưng nó khác với việc trích xuất hình ảnh được nhúng trong tài liệu PDF không được pdfminer.six hỗ trợ. Tuy nhiên, các nhà phát triển vẫn có thể dựa vào nó để phân tích cú pháp các tệp PDF trong Python nhằm trích xuất văn bản phục vụ nhu cầu phân tích dữ liệu của họ.