PyMuPDF
Atvirojo kodo Python biblioteka PDF metaduomenims tvarkyti
Išbandykite PyMuPDF, nemokamą ir atvirojo kodo Python biblioteką, kad pasiektumėte ir pakeistumėte PDF dokumentų metaduomenis.
Kas yra PyMuPDF?
„PyMuPDF“, taip pat žinomas kaip „Fitz“, yra atvirojo kodo „Python“ biblioteka, siūlanti daugybę funkcijų, pvz., PDF failų analizavimą, PDF failų padalijimas ir sujungimas ir pan., tačiau šiame puslapyje aptarsime tik tai, kaip Python kūrėjai gali naudoti PyMuPDF biblioteką su PDF metaduomenimis susijusioms užduotims atlikti, pavyzdžiui:
- Skaityti PDF metaduomenis: „PyMuPDF“ palaiko prieigą prie PDF dokumentų metaduomenų, kuriuose yra tokia informacija kaip autorius, pavadinimas, tema, sukūrimo data ir kt.
- Keisti PDF metaduomenis: biblioteka taip pat leidžia keisti PDF dokumentų metaduomenis.
- Skaityti XML metaduomenis: PDF dokumentuose taip pat yra XML metaduomenų, kurie neapsiriboja standartinėmis dokumento ypatybėmis, pvz., autoriumi, pavadinimu ir kt., ir gali turėti papildomų metaduomenų. Naudodami PyMuPDF kūrėjai taip pat gali jį perskaityti.
- Keisti XML metaduomenis: kūrėjai taip pat gali keisti PDF XML metaduomenis naudodami PyMuPDF biblioteką.
Darbo su PyMuPDF pradžia
Norint įdiegti ir naudoti PyMuPDF, reikalinga 3.8.0 ar naujesnė Python versija. Taigi pirmiausia įdiekite Python, tada naudokite toliau pateiktas komandas, kad įdiegtumėte PyMuPDF savo kompiuteryje naudodami pip ir virtuali aplinka.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Skaityti PDF metaduomenis
Galime skaityti PDF metaduomenis naudodami PyMuPDF bibliotekos narį metaduomenys, kuriame yra visas dokumento metaduomenų turinys. Toliau pateiktame kodo fragmente parodyta, kaip gauti PDF metaduomenis iš metaduomenų nario:
Toliau pateiktoje ekrano kopijoje rodomi metaduomenys, gauti iš PDF naudojant PyMuPDF:
Redaguoti PDF metaduomenis
Naudodami PyMuPDF biblioteką galime redaguoti PDF failų metaduomenis, perduodami žodyną, kuriame yra laukai, kuriuos norime pakeisti, ir jų naujos reikšmės metodui set_metadata, kaip parodyta toliau pateiktame kodo fragmente:
Skaityti PDF XML metaduomenis
Naudodami PyMuPDF biblioteką galime gauti PDF XML metaduomenis. Mes naudojame metodą get_xml_metadata, kuris grąžina visus XML metaduomenis, kaip parodyta toliau pateiktame kodo fragmente:
Toliau pateiktoje ekrano kopijoje rodomi XML metaduomenys, gauti iš PDF naudojant PyMuPDF:
Keisti PDF XML metaduomenis
Naudodami PyMuPDF bibliotekos metodą set_xml_metadata galime nustatyti arba pakeisti PDF XML metaduomenis. Tai nėra taip paprasta, kaip pakeisti dokumento lygio metaduomenis, nes set_xml_metadata priims bet kokią eilutę ir pakeis visus XML metaduomenis jai perduota eilute.
Siekdami išvengti netyčinio bet kokios metaduomenų informacijos ištrynimo, pirmiausia gauname visus XML metaduomenis kaip eilutę naudodami get_xml_metadata, o tada naudojame pakeisti eilutės metodą, kad pakeistume norimą eilutę. galiausiai perduodame visą XML su pakeistais laukais metodui set_xml_metadata, kuris pakeičia visus PDF XML metaduomenis. Norėdami gauti daugiau informacijos, patikrinkite toliau pateiktą kodo fragmentą:
Išvada
Apibendrinant galima pasakyti, kad PyMuPDF yra puikus įrankis užduotims, susijusioms su metaduomenų manipuliavimu. Galime lengvai gauti ir pakeisti PDF failų metaduomenų informaciją. Tačiau pastebimas trūkumas yra set_xml_metadata metodo. Šis metodas priima bet kokią jam perduotą eilutę ir ja perrašo ankstesnį XML, o tai gali sukelti netyčinį informacijos praradimą, kad būtų išvengta šios problemos, kūrėjai turi įdiegti savo logiką, kad užtikrintų teisingus XML metaduomenų pakeitimus.