Thư viện siêu dữ liệu Python nguồn mở
Thư viện Python mã nguồn mở và miễn phí để đọc, chỉnh sửa và cập nhật siêu dữ liệu của tài liệu.
Hachoir-metadata API dành cho Python là gì?
hachoir-metadata là một thư viện Python thuộc dự án Hachoir rộng hơn, được thiết kế để phân tích và trích xuất siêu dữ liệu từ nhiều loại tệp khác nhau. Nó cung cấp các công cụ để đọc siêu dữ liệu mà không cần giải nén hoặc giải mã hoàn toàn các tệp, giúp nó nhẹ và hiệu quả cho các tác vụ kiểm tra siêu dữ liệu cơ bản.
Các tính năng của API hachoir-metadata
hachoir-metadata is a powerful API that has rich features as follow:- Hỗ trợ loại tệp: Hoạt động với nhiều định dạng tệp, bao gồm hình ảnh, video, tệp âm thanh, tệp lưu trữ và tài liệu.
- Trích xuất siêu dữ liệu: Trích xuất siêu dữ liệu cơ bản như kích thước tệp, ngày tạo, ngày sửa đổi và nhiều thuộc tính cụ thể khác theo định dạng (ví dụ: EXIF cho hình ảnh, codec cho video, v.v.).
- Hoạt động chỉ đọc: Tập trung vào việc đọc và kiểm tra siêu dữ liệu mà không sửa đổi tệp gốc.
- Không phân biệt loại tệp: Tự động phát hiện loại tệp và trích xuất siêu dữ liệu phù hợp.
- Tích hợp: Có thể tích hợp vào các ứng dụng Python để sử dụng trong các quy trình công việc như tổ chức nội dung, pháp y kỹ thuật số và hệ thống lưu trữ.
Các chế độ của API hachoir-metadata
- chế độ cổ điển: trích xuất siêu dữ liệu, bạn có thể sử dụng –level=LEVEL để giới hạn số lượng thông tin hiển thị (và không trích xuất)
- type: hiển thị trên một dòng định dạng tập tin và thông tin quan trọng nhất
- mime: chỉ hiển thị loại MIME của tệp
Bắt đầu với Hachoir API cho Python
Để sử dụng Hachoir API cho Python, bạn cần cài đặt phiên bản Python 3.6+ và Hachoir trên hệ thống của mình. Vì vậy, trước tiên hãy cài đặt Python rồi sử dụng các lệnh bên dưới để cài đặt Hachoir API trên máy của bạn bằng pip và môi trường ảo.
pip install hachoir
1. Checkout the source code from Github repository git clone git://github.com/vstinner/hachoir.git
2. Run setup.py to install the module from source python setup.py install [--user|--prefix=]
Làm việc với API hachoir-metadata cho Python - Ví dụ
API hachoir-metadata cho Python cho phép bạn đọc thông tin siêu dữ liệu từ các loại tệp phương tiện. Chỉ với một vài dòng mã, bạn có thể phát triển các ứng dụng mạnh mẽ có thể đọc thông tin siêu dữ liệu từ các định dạng tệp khác nhau. Các mẫu mã sau đây cho thấy cách sử dụng API hachoir-metadata trong các ứng dụng Python.
Làm việc với API hachoir-metadata cho Python - Ví dụ
pyExifTool cung cấp cho bạn hỗ trợ đọc siêu dữ liệu của nhiều định dạng tệp khác nhau như PDF, BMP, JPEG, DOCX, XLSX và nhiều định dạng khác. API cho phép bạn đọc thông tin siêu dữ liệu của tệp bằng phương thức get_metadata. Kiểm tra đoạn mã bên dưới, nơi chúng tôi đọc thông tin siêu dữ liệu từ tệp PDF.
Đầu ra
Khi bạn thực thi đoạn mã này, đầu ra sẽ tương tự như sau (tùy thuộc vào thông tin có trong tệp mẫu của bạn):
Metadata:
- Duration: 1 min 56 sec 261 ms
- Image width: 1280 pixels
- Image height: 720 pixels
- Creation date: 1904-01-01 00:00:00
- Last modification: 1904-01-01 00:00:00
- Comment: Play speed: 100.0%
- Comment: User volume: 100.0%
- MIME type: video/mp4
- Endianness: Big endian
Phần kết luận
API hachoir-metadata cung cấp giải pháp mạnh mẽ nhưng nhẹ để trích xuất siêu dữ liệu từ nhiều định dạng tệp khác nhau, khiến nó trở thành công cụ tuyệt vời cho các nhà phát triển python làm việc trong các lĩnh vực như pháp y kỹ thuật số, quản lý nội dung và phân tích dữ liệu. Khả năng phân tích tệp mà không cần sửa đổi đảm bảo tính toàn vẹn của dữ liệu, trong khi giao diện Pythonic của nó đơn giản hóa việc tích hợp vào các ứng dụng và quy trình làm việc. Với sự hỗ trợ cho nhiều loại tệp và thuộc tính siêu dữ liệu, hachoir-metadata là lựa chọn linh hoạt để kiểm tra siêu dữ liệu nhanh chóng và hiệu quả cho cả dự án/hệ thống cá nhân cũng như chuyên nghiệp.