PyMuPDF
Avoimen lähdekoodin Python-kirjasto PDF-metatietojen hallintaan
Kokeile PyMuPDF:ää, ilmaista ja avoimen lähdekoodin Python-kirjastoa päästäksesi käsiksi ja muokataksesi PDF-dokumenttien metatietoja.
Mikä on PyMuPDF?
PyMuPDF, joka tunnetaan myös nimellä Fitz, on avoimen lähdekoodin Python-kirjasto, joka tarjoaa monia ominaisuuksia, kuten PDF-tiedostojen jäsentämisen, PDF-tiedostojen jakaminen ja yhdistäminen jne., mutta tällä sivulla käsitellään vain sitä, kuinka Python-kehittäjät voivat käyttää PyMuPDF-kirjastoa PDF-metatietoihin liittyvien tehtävien, kuten:
- Lue PDF-metatietoja: PyMuPDF tukee PDF-dokumenttien metatietojen käyttöä, jotka sisältävät tietoja, kuten tekijän, otsikon, aiheen ja luontipäivämäärän.
- Muokkaa PDF-metatietoja: Kirjasto mahdollistaa myös PDF-dokumenttien metatietojen muokkaamisen.
- Lue XML-metatietoja: PDF-dokumentit sisältävät myös XML-metatietoja, jotka eivät rajoitu dokumentin vakioominaisuuksiin, kuten tekijään, otsikkoon jne., ja niissä voi olla lisää metatietoja. PyMuPDF:n avulla kehittäjät voivat myös lukea sen.
- Muuta XML-metatietoja: Kehittäjät voivat myös muuttaa PDF-tiedostojen XML-metatietoja PyMuPDF-kirjaston avulla.
PyMuPDF:n käytön aloittaminen
Tarvitset Python-version 3.8.0 tai uudemman PyMuPDF:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten PyMuPDF koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö a>.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Lue PDF-metatiedot
Voimme lukea PDF-tiedoston metatietoja käyttämällä PyMuPDF-kirjaston metadata-jäsentä, joka sisältää asiakirjan täydellisen metatietosisällön. Alla oleva koodinpätkä näyttää, kuinka PDF-tiedoston metatiedot saadaan metatieto-jäseneltä:
Lähtö
Alla oleva kuvakaappaus näyttää haetut metatiedot PDF-tiedostosta PyMuPDF:n avulla:
Muokkaa PDF-metatietoja
Voimme muokata PDF-tiedostojen metatietoja PyMuPDF-kirjaston avulla välittämällä sanakirjan, joka sisältää muutettavat kentät ja niiden uudet arvot set_metadata-menetelmään alla olevan koodinpätkän mukaisesti:
Lue PDF-tiedostojen XML-metatiedot
PyMuPDF-kirjaston avulla voimme hakea PDF-tiedoston XML-metatiedot. Käytämme get_xml_metadata-menetelmää, joka palauttaa koko XML-metatiedot alla olevan koodinpätkän mukaisesti:
Lähtö
Alla oleva kuvakaappaus näyttää XML-metatiedot, jotka on haettu PDF-tiedostosta PyMuPDF:n avulla:
Muuta PDF-tiedostojen XML-metatietoja
Voimme asettaa tai muuttaa PDF-tiedoston XML-metatietoja PyMuPDF-kirjaston menetelmällä set_xml_metadata. Se ei ole yhtä yksinkertaista kuin asiakirjatason metatietojen korvaaminen, koska set_xml_metadata hyväksyy minkä tahansa merkkijonon ja korvaa täydelliset XML-metatiedot sille välitetyllä merkkijonolla.
Jotta vältetään metatietotietojen tahaton poistaminen, haemme ensin täydelliset XML-metatiedot merkkijonona käyttämällä get_xml_metadata-komentoa ja käytämme sitten korvaa-menetelmää halutun merkkijonon korvaamiseen. Lopuksi välitämme täydellisen XML:n muuttuneine kenttineen set_xml_metadata-menetelmälle, joka muuttaa PDF-tiedoston koko XML-metatiedot. Katso lisätietoja alla olevasta koodinpätkästä:
Johtopäätös
Yhteenvetona PyMuPDF on loistava työkalu metatietojen käsittelyyn liittyviin tehtäviin. Voimme helposti hakea ja muuttaa PDF-tiedostojen metatietotietoja. Huomattava heikkous on kuitenkin set_xml_metadata-menetelmässä. Tämä menetelmä hyväksyy minkä tahansa sille välitetyn merkkijonon ja korvaa aiemman XML:n sillä, mikä voi aiheuttaa tahatonta tietojen menetystä tämän ongelman välttämiseksi. Kehittäjien on otettava käyttöön logiikkansa varmistaakseen XML-metatietojen oikeat muutokset.
Samankaltaisia Tuotteita
- hachoir | Avoimen lähdekoodin Python-kirjasto asiakirjan metatiedoille
- Mutagen Python Library - Hallitse äänen metatietoja vaivattomasti
- pdf-lib JavaScriptille | Hallitse PDF-metatietoja helposti
- PikePDF Python Library - vaivaton PDF-manipulaatio ja suojaus
- pyExifTool | Avoimen lähdekoodin Python API asiakirjan metadatalle