PyMuPDF
Avoimen lähdekoodin Python-kirjasto PDF-metatietojen hallintaan
Kokeile PyMuPDF:ää, ilmaista ja avoimen lähdekoodin Python-kirjastoa päästäksesi käsiksi ja muokataksesi PDF-dokumenttien metatietoja.
Mikä on PyMuPDF?
PyMuPDF, joka tunnetaan myös nimellä Fitz, on avoimen lähdekoodin Python-kirjasto, joka tarjoaa monia ominaisuuksia, kuten PDF-tiedostojen jäsentämisen, PDF-tiedostojen jakaminen ja yhdistäminen jne., mutta tällä sivulla käsitellään vain sitä, kuinka Python-kehittäjät voivat käyttää PyMuPDF-kirjastoa PDF-metatietoihin liittyvien tehtävien, kuten:
- Lue PDF-metatietoja: PyMuPDF tukee PDF-dokumenttien metatietojen käyttöä, jotka sisältävät tietoja, kuten tekijän, otsikon, aiheen ja luontipäivämäärän jne.
- Muokkaa PDF-metatietoja: Kirjasto mahdollistaa myös PDF-dokumenttien metatietojen muokkaamisen.
- Lue XML-metatietoja: PDF-dokumentit sisältävät myös XML-metatietoja, jotka eivät rajoitu dokumentin vakioominaisuuksiin, kuten tekijään, otsikkoon jne., ja niissä voi olla lisää metatietoja. PyMuPDF:n avulla kehittäjät voivat myös lukea sen.
- Muuta XML-metatietoja: Kehittäjät voivat myös muuttaa PDF-tiedostojen XML-metatietoja PyMuPDF-kirjaston avulla.
PyMuPDF:n käytön aloittaminen
Tarvitset Python-version 3.8.0 tai uudemman PyMuPDF:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten PyMuPDF koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac käyttöjärjestelmä
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Lue PDF-metatiedot
Voimme lukea PDF-tiedoston metatietoja PyMuPDF-kirjaston metadata -jäsenellä, joka sisältää asiakirjan täydellisen metatietosisällön. Alla oleva koodinpätkä näyttää, kuinka PDF-tiedoston metatiedot saadaan metatieto-jäseneltä:
Alla oleva kuvakaappaus näyttää haetut metatiedot PDF-tiedostosta PyMuPDF:n avulla:
Muokkaa PDF-metatietoja
Voimme muokata PDF-tiedostojen metatietoja PyMuPDF-kirjaston avulla välittämällä sanakirjan, joka sisältää muutettavat kentät ja niiden uudet arvot set_metadata-menetelmään alla olevan koodinpätkän mukaisesti:
Lue PDF-tiedostojen XML-metatiedot
PyMuPDF-kirjaston avulla voimme hakea PDF-tiedoston XML-metatiedot. Käytämme get_xml_metadata-menetelmää, joka palauttaa koko XML-metatiedot alla olevan koodinpätkän mukaisesti:
Alla oleva kuvakaappaus näyttää XML-metatiedot, jotka on haettu PDF-tiedostosta PyMuPDF:n avulla:
Muuta PDF-tiedostojen XML-metatietoja
Voimme asettaa tai muuttaa PDF-tiedoston XML-metatietoja PyMuPDF-kirjaston menetelmällä set_xml_metadata. Se ei ole yhtä yksinkertaista kuin asiakirjatason metatietojen korvaaminen, koska set_xml_metadata hyväksyy minkä tahansa merkkijonon ja korvaa täydelliset XML-metatiedot sille välitetyllä merkkijonolla.
Jotta vältetään metatietotietojen tahaton poistaminen, haemme ensin täydelliset XML-metatiedot merkkijonona käyttämällä get_xml_metadata-komentoa ja käytämme sitten korvaa-menetelmää halutun merkkijonon korvaamiseen. Lopuksi välitämme täydellisen XML:n muuttuneine kenttineen set_xml_metadata-menetelmälle, joka muuttaa PDF-tiedoston koko XML-metatiedot. Katso lisätietoja alla olevasta koodinpätkästä:
Johtopäätös
Yhteenvetona PyMuPDF on loistava työkalu metatietojen käsittelyyn liittyviin tehtäviin. Voimme helposti hakea ja muuttaa PDF-tiedostojen metatietotietoja. Huomattava heikkous on kuitenkin set_xml_metadata-menetelmässä. Tämä menetelmä hyväksyy kaikki sille välitetyt merkkijonot ja korvaa aiemman XML:n sillä, mikä voi aiheuttaa tahatonta tietojen menetystä. Tämän ongelman välttämiseksi kehittäjien on otettava käyttöön logiikkansa varmistaakseen oikeat muutokset XML-metatietoihin.