1. Produk
  2.   Metadata
  3.   Python
  4.   PyMuPDF

PyMuPDF

 
 

Pustaka Python Sumber Terbuka untuk Mengelola Metadata PDF

Cobalah PyMuPDF, pustaka Python Gratis & Sumber Terbuka untuk mengakses dan mengubah metadata dokumen PDF.

Apa itu PyMuPDF?

PyMuPDF, juga dikenal sebagai Fitz, adalah pustaka Python sumber terbuka yang menawarkan banyak fitur seperti penguraian PDF, pemisahan dan penggabungan PDF dll. Namun, di halaman ini kami hanya akan membahas cara pengembang Python dapat menggunakan pustaka PyMuPDF untuk menangani tugas-tugas terkait metadata PDF seperti:

  • Baca Metadata PDF: PyMuPDF mendukung akses metadata dokumen PDF yang berisi informasi seperti penulis, judul, subjek, dan tanggal pembuatan, dll.
  • Ubah Metadata PDF: Pustaka juga memungkinkan pengubahan metadata dokumen PDF.
  • Membaca Metadata XML: Dokumen PDF juga berisi metadata XML yang tidak terbatas pada properti dokumen standar seperti penulis, judul, dll. dan dapat memiliki metadata tambahan. Dengan PyMuPDF, pengembang juga dapat membacanya.
  • Ubah Metadata XML: Pengembang juga dapat mengubah metadata XML PDF menggunakan pustaka PyMuPDF.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan PyMuPDF

Anda memerlukan Python versi 3.8.0 atau yang lebih tinggi untuk menginstal dan menggunakan PyMuPDF. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal PyMuPDF di komputer Anda menggunakan pip dan lingkungan virtual.

Bahasa Indonesia: Sistem Operasi Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Bahasa Indonesia: MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Jendela


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Baca Metadata PDF

Kita dapat membaca metadata PDF menggunakan anggota metadata dari pustaka PyMuPDF yang berisi konten metadata lengkap dari dokumen tersebut. Cuplikan kode di bawah ini menunjukkan cara memperoleh metadata PDF dari anggota metadata:

Keluaran

Tangkapan layar di bawah menunjukkan metadata yang diambil dari PDF menggunakan PyMuPDF:

Mengedit Metadata PDF

Kita dapat mengedit metadata PDF menggunakan pustaka PyMuPDF dengan meneruskan kamus yang berisi bidang-bidang yang ingin kita ubah beserta nilai-nilai barunya ke metode set_metadata seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Membaca Metadata XML dari PDF

Kita dapat mengambil metadata XML dari PDF menggunakan pustaka PyMuPDF. Kita menggunakan metode get_xml_metadata yang mengembalikan seluruh metadata XML seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Keluaran

Tangkapan layar di bawah menunjukkan metadata XML yang diambil dari PDF menggunakan PyMuPDF:

Mengubah Metadata XML PDF

Kita dapat mengatur atau mengubah metadata XML dari PDF menggunakan metode set_xml_metadata dari pustaka PyMuPDF. Hal ini tidak semudah mengganti metadata tingkat dokumen karena set_xml_metadata akan menerima string apa pun dan mengganti metadata XML lengkap dengan string yang diberikan kepadanya.

Untuk menghindari penghapusan informasi metadata yang tidak disengaja, pertama-tama kami mengambil metadata XML lengkap sebagai string menggunakan get_xml_metadata lalu menggunakan metode replace dari string untuk mengganti informasi yang diinginkan. Terakhir, kami meneruskan XML lengkap dengan bidang yang diubah ke metode set_xml_metadata yang mengubah seluruh metadata XML PDF. Periksa cuplikan kode di bawah ini untuk detailnya:

Kesimpulan

Singkatnya, PyMuPDF adalah alat yang hebat untuk tugas-tugas yang terkait dengan manipulasi metadata. Kita dapat dengan mudah mengambil dan mengubah informasi metadata PDF. Namun, kelemahan yang mencolok terletak pada metode set_xml_metadata. Metode ini menerima string apa pun yang diteruskan kepadanya dan menimpa XML sebelumnya dengannya yang dapat menyebabkan hilangnya informasi secara tidak sengaja. Untuk menghindari masalah ini, pengembang diharuskan menerapkan logika mereka guna memastikan modifikasi yang benar dalam metadata XML.

Produk Sejenis

 Indonesia