PyMuPDF

Libreria Python open source per gestire i metadati PDF

Prova PyMuPDF, la libreria Python gratuita e open source per accedere e modificare i metadati dei documenti PDF.

Che cos'è PyMuPDF?

PyMuPDF, nota anche come Fitz, è una libreria Python open source che offre numerose funzionalità come l'analisi dei PDF, la divisione e unione dei PDF ecc., ma in questa pagina parleremo solo di come gli sviluppatori Python possono utilizzare la libreria PyMuPDF per gestire attività relative ai metadati PDF quali:

Leggi i metadati PDF: PyMuPDF supporta l'accesso ai metadati dei documenti PDF contenenti informazioni quali autore, titolo, argomento e data di creazione, ecc.
Modifica metadati PDF: la libreria consente anche di modificare i metadati dei documenti PDF.
Leggi metadati XML: i documenti PDF contengono anche metadati XML che non si limitano alle proprietà standard del documento come autore, titolo ecc. e possono avere metadati aggiuntivi. Con PyMuPDF, gli sviluppatori possono anche leggerli.
Modifica metadati XML: gli sviluppatori possono anche modificare i metadati XML dei PDF utilizzando la libreria PyMuPDF.

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Introduzione a PyMuPDF

Per installare e utilizzare PyMuPDF è necessaria la versione 3.8.0 o superiore di Python. Quindi, installa prima Python e poi usa i comandi sottostanti per installare PyMuPDF sul tuo computer usando pip e ambiente virtuale.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Finestre


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Leggi i metadati PDF

Possiamo leggere i metadati di un PDF usando il membro metadata della libreria PyMuPDF che contiene il contenuto completo dei metadati del documento. Il frammento di codice seguente mostra come ottenere i metadati di un PDF dal membro metadata:

Produzione

Lo screenshot seguente mostra i metadati recuperati da un PDF utilizzando PyMuPDF:

Modifica metadati PDF

Possiamo modificare i metadati dei PDF utilizzando la libreria PyMuPDF passando un dizionario contenente i campi che vogliamo modificare insieme ai loro nuovi valori al metodo set_metadata come mostrato nel frammento di codice seguente:

Leggi i metadati XML dei PDF

Possiamo recuperare i metadati XML di un PDF usando la libreria PyMuPDF. Utilizziamo il metodo get_xml_metadata che restituisce tutti i metadati XML come mostrato nel frammento di codice seguente:

Produzione

La schermata seguente mostra i metadati XML recuperati da un PDF utilizzando PyMuPDF:

Modificare i metadati XML dei PDF

Possiamo impostare o modificare i metadati XML di un PDF utilizzando il metodo set_xml_metadata della libreria PyMuPDF. Non è così semplice come sostituire i metadati a livello di documento perché set_xml_metadata accetterà qualsiasi stringa e sostituirà i metadati XML completi con la stringa che gli è stata passata.

Per evitare l'eliminazione involontaria di qualsiasi informazione sui metadati, prima recuperiamo i metadati XML completi come stringa usando get_xml_metadata e poi utilizziamo il metodo replace di string per sostituire le informazioni desiderate. Infine, passiamo l'XML completo con i campi modificati al metodo set_xml_metadata che modifica tutti i metadati XML del PDF. Controlla il frammento di codice qui sotto per i dettagli:

Conclusione

In sintesi, PyMuPDF è un ottimo strumento per le attività relative alla manipolazione dei metadati. Possiamo facilmente recuperare e modificare le informazioni sui metadati dei PDF. Tuttavia, una debolezza notevole risiede nel metodo set_xml_metadata. Questo metodo accetta qualsiasi stringa passatagli e sovrascrive il precedente XML con esso, il che potrebbe causare una perdita involontaria di informazioni. Per evitare questo problema, gli sviluppatori sono tenuti a implementare la loro logica per garantire modifiche corrette nei metadati XML.

PyMuPDF

Libreria Python open source per gestire i metadati PDF

Prova PyMuPDF, la libreria Python gratuita e open source per accedere e modificare i metadati dei documenti PDF.

Che cos'è PyMuPDF?

Statistiche GitHub

Introduzione a PyMuPDF

Linux

MacOS

Finestre

Leggi i metadati PDF

Produzione

Modifica metadati PDF

Leggi i metadati XML dei PDF

Produzione

Modificare i metadati XML dei PDF

Conclusione

Prodotti Simili