Pustaka Metadata PDF Python Sumber Terbuka
Pustaka Python sumber percuma & terbuka untuk membaca dan mengemas kini metadata dokumen PDF.
Apakah itu pypdf?
Pypdf ialah perpustakaan python sumber terbuka serba boleh yang terkenal dengan set ciri yang pelbagai untuk manipulasi PDF. Pustaka ini amat berguna untuk pelbagai manipulasi PDF seperti penghuraian PDF dan Pemisahan & penggabungan PDF dsb. tetapi dalam semakan produk ini, kami hanya akan menumpukan pada ciri pengurusan metadata PDFnya.
Berikut ialah ciri utama pypdf yang berkaitan dengan metadata:
- Baca Metadata PDF: Anda boleh membaca sifat (seperti pengarang, pencipta, pengeluar, tajuk, subjek dan kata kunci) dokumen PDF menggunakan pypdf.
- Kemas kini Metadata PDF: Anda juga boleh mengemas kini metadata dokumen PDF menggunakan pypdf.
Statistik GitHub
nama: pypdfBahasa: Python
Bintang: 8.9K
Garpu: 1.4K
Lesen: Other
Repositori dikemas kini terakhir pada 2025-04-06
Bermula dengan pypdf
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Membaca Metadata PDF
Kita boleh membaca metadata dokumen PDF menggunakan perpustakaan pypdf. Kami akan mendapatkan metadata PDF daripada sifat metadata kelas PdfReader dalam pustaka pypdf. Semak coretan kod di bawah untuk butiran:
# Import PdfReader module from the pypdf library | |
from pypdf import PdfReader | |
# Create a PdfReader object and load the input PDF file | |
reader = PdfReader("meta-pdf.pdf") | |
# Reading metadata | |
meta = reader.metadata | |
# Print the metadata | |
print(meta.author) | |
print(meta.producer) | |
print(meta.subject) | |
print(meta.title) |
Keluaran
Tangkapan skrin di bawah memaparkan metadata fail PDF yang disediakan:
Mengemas kini Metadata PDF
Kami juga boleh mengemas kini metadata dokumen PDF seperti pengarang, pengeluar, subjek dan tajuk dsb. menggunakan perpustakaan pypdf. Kami akan menghantar objek yang mengandungi maklumat metadata kepada kaedah add_metadata kelas PdfWriter dalam pustaka pypdf untuk mengemas kini/menulis metadata dokumen PDF. Untuk butiran, semak coretan kod di bawah:
# Import PdfReader and PdfWriter modules from the pypdf library | |
from pypdf import PdfReader, PdfWriter | |
# Import the datetime module | |
from datetime import datetime | |
# Create a PdfReader object and load the input PDF file | |
reader = PdfReader("documentprocessing.pdf") | |
# Creating a new PDF writer object using PdfWriter | |
writer = PdfWriter() | |
# Adding all pages from the input PDF to the new writer | |
for page in reader.pages: | |
writer.add_page(page) | |
# Format the current date and time for the metadata | |
# UTC time offset (optional, adjust as needed) | |
utc_time = "-05'00'" | |
# Current date and time formatted for metadata | |
time = datetime.now().strftime(f"D\072%Y%m%d%H%M%S{utc_time}") | |
# Writing new metadata to the PDF | |
writer.add_metadata( | |
{ | |
"/Author": "Documentprocessing", # Author information | |
"/Producer": "Microsoft Word", # Software used to produce the PDF | |
"/Title": "Title", # Document title | |
"/Subject": "Subject", # Document subject | |
"/Keywords": "Keywords", # Keywords associated with the document | |
"/CreationDate": time, # Date and time the document was created | |
"/ModDate": time, # Date and time the document was last modified | |
"/Creator": "Creator", # Application that created the original document | |
} | |
) | |
# Save the new PDF to a file | |
with open("meta-pdf.pdf", "wb") as f: | |
writer.write(f) |
Kesimpulan
Kesimpulannya, pypdf terbukti sebagai perpustakaan Python yang luar biasa untuk membaca dan mengemas kini metadata dokumen PDF. Pembangun boleh membaca dan mengemas kini metadata dokumen PDF dengan mudah tanpa sebarang masalah.