Thư viện siêu dữ liệu Python nguồn mở
Thư viện Python mã nguồn mở và miễn phí để đọc, chỉnh sửa và cập nhật siêu dữ liệu của tài liệu.
pyExifTool là gì?
Thư viện Python pyExifTool là một trình bao bọc nhẹ xung quanh tiện ích ExifTool phổ biến, cho phép người dùng tương tác với siêu dữ liệu tệp theo chương trình. Với sự hỗ trợ cho nhiều định dạng tệp khác nhau, bao gồm PDF, hình ảnh, video và tệp âm thanh, pyexiftool cung cấp khả năng đọc, ghi và xóa siêu dữ liệu bằng các tính năng mạnh mẽ của ExifTool. Thư viện được thiết kế để tận dụng khả năng dòng lệnh của ExifTool trong khi cung cấp giao diện Pythonic để dễ sử dụng. Trong trang này, chúng tôi sẽ thảo luận về cách các nhà phát triển có thể sử dụng API pyExifTool trong các ứng dụng Python của họ để làm việc với siêu dữ liệu của tệp.
Bắt đầu với pyExifTool
Để sử dụng pyExifTool, bạn cần cài đặt phiên bản Python 3.6+ và ExifTool trên hệ thống của mình. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt pyExifTool trên máy của bạn bằng pip và môi trường ảo.
python -m pip install -U pyexiftool
1. Checkout the source code from Github repository git clone git://github.com/sylikc/pyexiftool.git
2. Run setup.py to install the module from source python setup.py install [--user|--prefix=]
Đọc siêu dữ liệu của PDF và các tệp khác
pyExifTool cung cấp cho bạn hỗ trợ đọc siêu dữ liệu của nhiều định dạng tệp khác nhau như PDF, BMP, JPEG, DOCX, XLSX và nhiều định dạng khác. API cho phép bạn đọc thông tin siêu dữ liệu của tệp bằng phương thức get_metadata. Kiểm tra đoạn mã bên dưới, nơi chúng tôi đọc thông tin siêu dữ liệu từ tệp PDF.
Đầu ra
Ảnh chụp màn hình bên dưới hiển thị siêu dữ liệu của tệp PDF:
Cập nhật siêu dữ liệu của PDF và các định dạng tệp khác
Bạn cũng có thể cập nhật siêu dữ liệu của PDF hoặc bất kỳ tài liệu nào khác bằng pyExifTool. Công cụ này cho phép bạn cập nhật các trường siêu dữ liệu như tác giả, nhà sản xuất, chủ đề, tiêu đề, v.v. bằng cách đặt thẻ. Điều này được thể hiện trong mã mẫu sau.
Phần kết luận
Tóm lại, pyExifTool Python là một thư viện Python mạnh mẽ để đọc và cập nhật siêu dữ liệu của các loại tài liệu khác nhau. Nó dựa trên ExifTool hỗ trợ nhiều định dạng tệp để đọc/ghi siêu dữ liệu. Các nhà phát triển ứng dụng Python có thể sử dụng nó để phát triển các chương trình có thể đọc và ghi siêu dữ liệu của tài liệu theo các bước dễ dàng.