PyMuPDF

 
 

Avoimen lähdekoodin Python-kirjasto PDF-metatietojen hallintaan

Kokeile PyMuPDF:ää, ilmaista ja avoimen lähdekoodin Python-kirjastoa päästäksesi käsiksi ja muokataksesi PDF-dokumenttien metatietoja.

Mikä on PyMuPDF?

PyMuPDF, joka tunnetaan myös nimellä Fitz, on avoimen lähdekoodin Python-kirjasto, joka tarjoaa monia ominaisuuksia, kuten PDF-tiedostojen jäsentämisen, PDF-tiedostojen jakaminen ja yhdistäminen jne., mutta tällä sivulla käsitellään vain sitä, kuinka Python-kehittäjät voivat käyttää PyMuPDF-kirjastoa PDF-metatietoihin liittyvien tehtävien, kuten:

  • Lue PDF-metatietoja: PyMuPDF tukee PDF-dokumenttien metatietojen käyttöä, jotka sisältävät tietoja, kuten tekijän, otsikon, aiheen ja luontipäivämäärän jne.
  • Muokkaa PDF-metatietoja: Kirjasto mahdollistaa myös PDF-dokumenttien metatietojen muokkaamisen.
  • Lue XML-metatietoja: PDF-dokumentit sisältävät myös XML-metatietoja, jotka eivät rajoitu dokumentin vakioominaisuuksiin, kuten tekijään, otsikkoon jne., ja niissä voi olla lisää metatietoja. PyMuPDF:n avulla kehittäjät voivat myös lukea sen.
  • Muuta XML-metatietoja: Kehittäjät voivat myös muuttaa PDF-tiedostojen XML-metatietoja PyMuPDF-kirjaston avulla.
GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

PyMuPDF:n käytön aloittaminen

Tarvitset Python-version 3.8.0 tai uudemman PyMuPDF:n asentamiseen ja käyttämiseen. Joten asenna ensin Python ja asenna sitten PyMuPDF koneellesi alla olevien komentojen avulla käyttämällä pip ja virtuaaliympäristö.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac käyttöjärjestelmä


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Lue PDF-metatiedot

Voimme lukea PDF-tiedoston metatietoja PyMuPDF-kirjaston metadata -jäsenellä, joka sisältää asiakirjan täydellisen metatietosisällön. Alla oleva koodinpätkä näyttää, kuinka PDF-tiedoston metatiedot saadaan metatieto-jäseneltä:

Alla oleva kuvakaappaus näyttää haetut metatiedot PDF-tiedostosta PyMuPDF:n avulla:

Muokkaa PDF-metatietoja

Voimme muokata PDF-tiedostojen metatietoja PyMuPDF-kirjaston avulla välittämällä sanakirjan, joka sisältää muutettavat kentät ja niiden uudet arvot set_metadata-menetelmään alla olevan koodinpätkän mukaisesti:

Lue PDF-tiedostojen XML-metatiedot

PyMuPDF-kirjaston avulla voimme hakea PDF-tiedoston XML-metatiedot. Käytämme get_xml_metadata-menetelmää, joka palauttaa koko XML-metatiedot alla olevan koodinpätkän mukaisesti:

Alla oleva kuvakaappaus näyttää XML-metatiedot, jotka on haettu PDF-tiedostosta PyMuPDF:n avulla:

Muuta PDF-tiedostojen XML-metatietoja

Voimme asettaa tai muuttaa PDF-tiedoston XML-metatietoja PyMuPDF-kirjaston menetelmällä set_xml_metadata. Se ei ole yhtä yksinkertaista kuin asiakirjatason metatietojen korvaaminen, koska set_xml_metadata hyväksyy minkä tahansa merkkijonon ja korvaa täydelliset XML-metatiedot sille välitetyllä merkkijonolla.

Jotta vältetään metatietotietojen tahaton poistaminen, haemme ensin täydelliset XML-metatiedot merkkijonona käyttämällä get_xml_metadata-komentoa ja käytämme sitten korvaa-menetelmää halutun merkkijonon korvaamiseen. Lopuksi välitämme täydellisen XML:n muuttuneine kenttineen set_xml_metadata-menetelmälle, joka muuttaa PDF-tiedoston koko XML-metatiedot. Katso lisätietoja alla olevasta koodinpätkästä:

Johtopäätös

Yhteenvetona PyMuPDF on loistava työkalu metatietojen käsittelyyn liittyviin tehtäviin. Voimme helposti hakea ja muuttaa PDF-tiedostojen metatietotietoja. Huomattava heikkous on kuitenkin set_xml_metadata-menetelmässä. Tämä menetelmä hyväksyy kaikki sille välitetyt merkkijonot ja korvaa aiemman XML:n sillä, mikä voi aiheuttaa tahatonta tietojen menetystä. Tämän ongelman välttämiseksi kehittäjien on otettava käyttöön logiikkansa varmistaakseen oikeat muutokset XML-metatietoihin.

Samankaltaisia Tuotteita

 Finnish