
PyMuPDF
Biblioteca Python open source pentru a gestiona metadatele PDF
Încercați PyMuPDF, biblioteca Python gratuită și open source pentru a accesa și modifica metadatele documentelor PDF.
Ce este PyMuPDF?
PyMuPDF, cunoscut și sub numele de Fitz, este o bibliotecă Python open source care oferă multe funcții precum parsarea PDF-urilor, diviziunea și îmbinarea PDF-urilor etc., dar în această pagină vom discuta doar despre modul în care dezvoltatorii Python pot folosi biblioteca PyMuPDF pentru a gestiona sarcini legate de metadatele PDF, cum ar fi:
- Citiți metadatele PDF: PyMuPDF acceptă accesarea metadatelor documentelor PDF care conțin informații precum autor, titlu, subiect și data creării etc.
- Modificați metadatele PDF: biblioteca permite, de asemenea, modificarea metadatelor documentelor PDF.
- Citiți metadatele XML: documentele PDF conțin și metadate XML care nu se limitează la proprietățile standard ale documentului, cum ar fi autorul, titlul etc. și pot avea metadate suplimentare. Cu PyMuPDF, dezvoltatorii îl pot citi și ei.
- Modificați metadatele XML: dezvoltatorii pot modifica și metadatele XML ale fișierelor PDF utilizând biblioteca PyMuPDF.
Noțiuni introductive cu PyMuPDF
Aveți nevoie de versiunea Python 3.8.0 sau o versiune ulterioară pentru a instala și utiliza PyMuPDF. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala PyMuPDF pe computer folosind pip și mediu virtual.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Citiți metadatele PDF
Putem citi metadatele unui PDF utilizând membrul metadatelor al bibliotecii PyMuPDF, care conține conținutul complet al metadatelor documentului. Fragmentul de cod de mai jos arată cum să obțineți metadatele unui PDF de la membrul metadate:
Captura de ecran de mai jos arată metadatele preluate dintr-un PDF utilizând PyMuPDF:
Editați metadatele PDF
Putem edita metadatele PDF-urilor folosind biblioteca PyMuPDF trecând un dicționar care conține câmpurile pe care dorim să le modificăm împreună cu noile lor valori la metoda set_metadata, așa cum se arată în fragmentul de cod de mai jos:
Citiți metadatele XML ale PDF-urilor
Putem prelua metadatele XML ale unui PDF folosind biblioteca PyMuPDF. Folosim metoda get_xml_metadata care returnează metadatele XML complete, așa cum se arată în fragmentul de cod de mai jos:
Captura de ecran de mai jos arată metadatele XML preluate dintr-un PDF folosind PyMuPDF:
Modificați metadatele XML ale PDF-urilor
Putem seta sau modifica metadatele XML ale unui PDF folosind metoda set_xml_metadata a bibliotecii PyMuPDF. Nu este la fel de simplu ca înlocuirea metadatelor la nivel de document, deoarece set_xml_metadata va accepta orice șir și va înlocui metadatele XML complete cu șirul care i-a fost transmis.
Pentru a evita ștergerea neintenționată a oricăror informații despre metadate, mai întâi preluăm metadatele XML complete ca șir folosind get_xml_metadata și apoi folosim metoda replace pentru a înlocui șirul dorit. în cele din urmă, transmitem întregul XML cu câmpurile modificate la metoda set_xml_metadata care modifică întreaga metadată XML a PDF-ului. Verificați fragmentul de cod de mai jos pentru detalii:
Concluzie
Pe scurt, PyMuPDF este un instrument excelent pentru sarcini legate de manipularea metadatelor. Putem prelua și modifica cu ușurință informațiile despre metadatele PDF-urilor. Cu toate acestea, o slăbiciune notabilă constă în metoda set_xml_metadata. Această metodă acceptă orice șir transmis și suprascrie XML-ul anterior cu acesta, ceea ce poate cauza pierderea neintenționată a informațiilor pentru a evita această problemă, dezvoltatorii sunt obligați să-și implementeze logica pentru a asigura modificări corecte în metadatele XML.