Βιβλιοθήκη μεταδεδομένων PDF Python ανοιχτού κώδικα
Δωρεάν και ανοιχτού κώδικα βιβλιοθήκη Python για ανάγνωση και ενημέρωση μεταδεδομένων εγγράφων PDF.
Τι είναι το pypdf;
Το Pypdf είναι μια ευέλικτη βιβλιοθήκη ανοιχτού κώδικα python γνωστή για το ποικίλο σύνολο δυνατοτήτων για χειρισμό PDF. Αυτή η βιβλιοθήκη είναι χρήσιμη για διάφορους χειρισμούς PDF, όπως ανάλυση PDF και διαίρεση και συγχώνευση PDF κ.λπ., αλλά σε αυτήν την κριτική προϊόντος, θα επικεντρωθούμε μόνο στις δυνατότητες διαχείρισης μεταδεδομένων PDF.
Ακολουθούν τα κύρια χαρακτηριστικά του pypdf που σχετίζονται με τα μεταδεδομένα:
- Ανάγνωση μεταδεδομένων PDF: Μπορείτε να διαβάσετε ιδιότητες (όπως συγγραφέας, δημιουργός, παραγωγός, τίτλος, θέμα και λέξεις-κλειδιά) εγγράφων PDF χρησιμοποιώντας pypdf.
- Ενημέρωση μεταδεδομένων PDF: Μπορείτε επίσης να ενημερώσετε τα μεταδεδομένα των εγγράφων PDF χρησιμοποιώντας το pypdf.
Στατιστικά GitHub
Ονομα: pypdfΓλώσσα: Python
Αστέρια: 8.9K
Πιρούνια: 1.4K
Αδεια: Other
Το αποθετήριο ενημερώθηκε τελευταία φορά στις 2025-04-05
Ξεκινώντας με το pypdf
Χρειάζεστε Python έκδοση 3.6.0 ή νεότερη για να εγκαταστήσετε και να χρησιμοποιήσετε το pypdf. Επομένως, πρώτα εγκαταστήστε το Python και, στη συνέχεια, χρησιμοποιήστε τις παρακάτω εντολές για να εγκαταστήσετε το pypdf στον υπολογιστή σας χρησιμοποιώντας pip και εικονικό περιβάλλον.
Ανάγνωση μεταδεδομένων PDF
# Import PdfReader module from the pypdf library | |
from pypdf import PdfReader | |
# Create a PdfReader object and load the input PDF file | |
reader = PdfReader("meta-pdf.pdf") | |
# Reading metadata | |
meta = reader.metadata | |
# Print the metadata | |
print(meta.author) | |
print(meta.producer) | |
print(meta.subject) | |
print(meta.title) |
Παραγωγή
Το παρακάτω στιγμιότυπο οθόνης εμφανίζει τα μεταδεδομένα του παρεχόμενου αρχείου PDF:
Ενημέρωση μεταδεδομένων του PDF
Μπορούμε επίσης να ενημερώσουμε τα μεταδεδομένα ενός εγγράφου PDF, όπως συγγραφέα, παραγωγό, θέμα και τίτλο κ.λπ. χρησιμοποιώντας τη βιβλιοθήκη pypdf. Θα περάσουμε ένα αντικείμενο που περιέχει τις πληροφορίες μεταδεδομένων στη μέθοδο add_metadata της κλάσης PdfWriter στη βιβλιοθήκη pypdf για ενημέρωση/εγγραφή μεταδεδομένων του εγγράφου PDF. Για λεπτομέρειες, ελέγξτε το παρακάτω απόσπασμα κώδικα:
# Import PdfReader and PdfWriter modules from the pypdf library | |
from pypdf import PdfReader, PdfWriter | |
# Import the datetime module | |
from datetime import datetime | |
# Create a PdfReader object and load the input PDF file | |
reader = PdfReader("documentprocessing.pdf") | |
# Creating a new PDF writer object using PdfWriter | |
writer = PdfWriter() | |
# Adding all pages from the input PDF to the new writer | |
for page in reader.pages: | |
writer.add_page(page) | |
# Format the current date and time for the metadata | |
# UTC time offset (optional, adjust as needed) | |
utc_time = "-05'00'" | |
# Current date and time formatted for metadata | |
time = datetime.now().strftime(f"D\072%Y%m%d%H%M%S{utc_time}") | |
# Writing new metadata to the PDF | |
writer.add_metadata( | |
{ | |
"/Author": "Documentprocessing", # Author information | |
"/Producer": "Microsoft Word", # Software used to produce the PDF | |
"/Title": "Title", # Document title | |
"/Subject": "Subject", # Document subject | |
"/Keywords": "Keywords", # Keywords associated with the document | |
"/CreationDate": time, # Date and time the document was created | |
"/ModDate": time, # Date and time the document was last modified | |
"/Creator": "Creator", # Application that created the original document | |
} | |
) | |
# Save the new PDF to a file | |
with open("meta-pdf.pdf", "wb") as f: | |
writer.write(f) |
Σύναψη
Συμπερασματικά, το pypdf αποδεικνύεται μια εξαιρετική βιβλιοθήκη Python για την ανάγνωση και την ενημέρωση μεταδεδομένων εγγράφων PDF. Οι προγραμματιστές μπορούν εύκολα να διαβάσουν και να ενημερώσουν τα μεταδεδομένα των εγγράφων PDF χωρίς προβλήματα.
Παρόμοια Προϊόντα
- hachoir | Βιβλιοθήκη Python ανοιχτού κώδικα για μεταδεδομένα εγγράφων
- Mutagen Python Library - Διαχείριση μεταδεδομένων ήχου χωρίς κόπο
- OpenPyXL API - Διαχείριση μεταδεδομένων του Excel χωρίς κόπο
- pdf-lib για JavaScript | Διαχειριστείτε εύκολα τα μεταδεδομένα PDF
- PikePDF Python Library - Εύκολη διαχείριση PDF και ασφάλεια