
PyMuPDF
Libreria Python open source per gestire i metadati PDF
Prova PyMuPDF, la libreria Python gratuita e open source per accedere e modificare i metadati dei documenti PDF.
Che cos'è PyMuPDF?
PyMuPDF, nota anche come Fitz, è una libreria Python open source che offre numerose funzionalità come l'analisi dei PDF, la divisione e unione dei PDF ecc., ma in questa pagina parleremo solo di come gli sviluppatori Python possono utilizzare la libreria PyMuPDF per gestire attività relative ai metadati PDF quali:
- Leggi i metadati PDF: PyMuPDF supporta l'accesso ai metadati dei documenti PDF contenenti informazioni quali autore, titolo, argomento e data di creazione, ecc.
- Modifica metadati PDF: la libreria consente anche di modificare i metadati dei documenti PDF.
- Leggi metadati XML: i documenti PDF contengono anche metadati XML che non si limitano alle proprietà standard del documento come autore, titolo ecc. e possono avere metadati aggiuntivi. Con PyMuPDF, gli sviluppatori possono anche leggerli.
- Modifica metadati XML: gli sviluppatori possono anche modificare i metadati XML dei PDF utilizzando la libreria PyMuPDF.
Introduzione a PyMuPDF
Per installare e utilizzare PyMuPDF è necessaria la versione 3.8.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare PyMuPDF sul tuo computer usando pip e ambiente virtuale.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Finestre
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Leggi i metadati PDF
Possiamo leggere i metadati di un PDF usando il membro metadata della libreria PyMuPDF che contiene il contenuto completo dei metadati del documento. Il frammento di codice seguente mostra come ottenere i metadati di un PDF dal membro metadata:
Produzione
Lo screenshot seguente mostra i metadati recuperati da un PDF utilizzando PyMuPDF:
Modifica metadati PDF
Possiamo modificare i metadati dei PDF utilizzando la libreria PyMuPDF passando un dizionario contenente i campi che vogliamo modificare insieme ai loro nuovi valori al metodo set_metadata come mostrato nel frammento di codice seguente:
Leggi i metadati XML dei PDF
Possiamo recuperare i metadati XML di un PDF usando la libreria PyMuPDF. Utilizziamo il metodo get_xml_metadata che restituisce tutti i metadati XML come mostrato nel frammento di codice seguente:
Produzione
La schermata seguente mostra i metadati XML recuperati da un PDF utilizzando PyMuPDF:
Modificare i metadati XML dei PDF
Possiamo impostare o modificare i metadati XML di un PDF utilizzando il metodo set_xml_metadata della libreria PyMuPDF. Non è così semplice come sostituire i metadati a livello di documento perché set_xml_metadata accetterà qualsiasi stringa e sostituirà i metadati XML completi con la stringa che gli è stata passata.
Per evitare l'eliminazione involontaria di qualsiasi informazione sui metadati, prima recuperiamo i metadati XML completi come stringa usando get_xml_metadata e poi utilizziamo il metodo replace di string per sostituire le informazioni desiderate. Infine, passiamo l'XML completo con i campi modificati al metodo set_xml_metadata che modifica tutti i metadati XML del PDF. Controlla il frammento di codice qui sotto per i dettagli:
Conclusione
In sintesi, PyMuPDF è un ottimo strumento per le attività relative alla manipolazione dei metadati. Possiamo facilmente recuperare e modificare le informazioni sui metadati dei PDF. Tuttavia, una debolezza notevole risiede nel metodo set_xml_metadata. Questo metodo accetta qualsiasi stringa passatagli e sovrascrive il precedente XML con esso, il che potrebbe causare una perdita involontaria di informazioni. Per evitare questo problema, gli sviluppatori sono tenuti a implementare la loro logica per garantire modifiche corrette nei metadati XML.
Prodotti Simili
- API OpenPyXL gestisci i metadati di Excel senza sforzo
- API PyLightXL gestisci in modo efficiente i metadati dei file Excel
- hachoir | Libreria Python open source per i metadati dei documenti
- Libreria Python Mutagen gestisci i metadati audio senza sforzo
- Libreria Python PikePDF - Manipolazione e sicurezza dei PDF senza sforzo