PyMuPDF
Pustaka Python Sumber Terbuka untuk Mengelola Metadata PDF
Cobalah PyMuPDF, pustaka Python Gratis & Sumber Terbuka untuk mengakses dan mengubah metadata dokumen PDF.
Apa itu PyMuPDF?
PyMuPDF, juga dikenal sebagai Fitz, adalah pustaka Python sumber terbuka yang menawarkan banyak fitur seperti penguraian PDF, pemisahan dan penggabungan PDF dll. Namun, di halaman ini kami hanya akan membahas cara pengembang Python dapat menggunakan pustaka PyMuPDF untuk menangani tugas-tugas terkait metadata PDF seperti:
- Baca Metadata PDF: PyMuPDF mendukung akses metadata dokumen PDF yang berisi informasi seperti penulis, judul, subjek, dan tanggal pembuatan, dll.
- Ubah Metadata PDF: Pustaka juga memungkinkan pengubahan metadata dokumen PDF.
- Membaca Metadata XML: Dokumen PDF juga berisi metadata XML yang tidak terbatas pada properti dokumen standar seperti penulis, judul, dll. dan dapat memiliki metadata tambahan. Dengan PyMuPDF, pengembang juga dapat membacanya.
- Ubah Metadata XML: Pengembang juga dapat mengubah metadata XML PDF menggunakan pustaka PyMuPDF.
Memulai dengan PyMuPDF
Anda memerlukan Python versi 3.8.0 atau yang lebih tinggi untuk menginstal dan menggunakan PyMuPDF. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal PyMuPDF di komputer Anda menggunakan pip dan lingkungan virtual.
Bahasa Indonesia: Sistem Operasi Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Bahasa Indonesia: MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Jendela
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Baca Metadata PDF
Kita dapat membaca metadata PDF menggunakan anggota metadata dari pustaka PyMuPDF yang berisi konten metadata lengkap dari dokumen tersebut. Cuplikan kode di bawah ini menunjukkan cara memperoleh metadata PDF dari anggota metadata:
Keluaran
Tangkapan layar di bawah menunjukkan metadata yang diambil dari PDF menggunakan PyMuPDF:
Mengedit Metadata PDF
Kita dapat mengedit metadata PDF menggunakan pustaka PyMuPDF dengan meneruskan kamus yang berisi bidang-bidang yang ingin kita ubah beserta nilai-nilai barunya ke metode set_metadata seperti yang ditunjukkan dalam cuplikan kode di bawah ini:
Membaca Metadata XML dari PDF
Kita dapat mengambil metadata XML dari PDF menggunakan pustaka PyMuPDF. Kita menggunakan metode get_xml_metadata yang mengembalikan seluruh metadata XML seperti yang ditunjukkan dalam cuplikan kode di bawah ini:
Keluaran
Tangkapan layar di bawah menunjukkan metadata XML yang diambil dari PDF menggunakan PyMuPDF:
Mengubah Metadata XML PDF
Kita dapat mengatur atau mengubah metadata XML dari PDF menggunakan metode set_xml_metadata dari pustaka PyMuPDF. Hal ini tidak semudah mengganti metadata tingkat dokumen karena set_xml_metadata akan menerima string apa pun dan mengganti metadata XML lengkap dengan string yang diberikan kepadanya.
Untuk menghindari penghapusan informasi metadata yang tidak disengaja, pertama-tama kami mengambil metadata XML lengkap sebagai string menggunakan get_xml_metadata lalu menggunakan metode replace dari string untuk mengganti informasi yang diinginkan. Terakhir, kami meneruskan XML lengkap dengan bidang yang diubah ke metode set_xml_metadata yang mengubah seluruh metadata XML PDF. Periksa cuplikan kode di bawah ini untuk detailnya:
Kesimpulan
Singkatnya, PyMuPDF adalah alat yang hebat untuk tugas-tugas yang terkait dengan manipulasi metadata. Kita dapat dengan mudah mengambil dan mengubah informasi metadata PDF. Namun, kelemahan yang mencolok terletak pada metode set_xml_metadata. Metode ini menerima string apa pun yang diteruskan kepadanya dan menimpa XML sebelumnya dengannya yang dapat menyebabkan hilangnya informasi secara tidak sengaja. Untuk menghindari masalah ini, pengembang diharuskan menerapkan logika mereka guna memastikan modifikasi yang benar dalam metadata XML.