1. Products
  2.   Metadata
  3.   Python
  4.   PyMuPDF

PyMuPDF

 
 

Atvērtā pirmkoda Python bibliotēka, lai pārvaldītu PDF metadatus

Izmēģiniet PyMuPDF, bezmaksas un atvērtā pirmkoda Python bibliotēku, lai piekļūtu PDF dokumentu metadatiem un modificētu tos.

Kas ir PyMuPDF?

PyMuPDF, kas pazīstams arī kā Fitz, ir atvērtā pirmkoda Python bibliotēka, kas piedāvā daudzas funkcijas, piemēram, PDF failu parsēšanu, PDF failu sadalīšana un sapludināšana utt., taču šajā lapā mēs tikai apspriedīsim, kā Python izstrādātāji var izmantot PyMuPDF bibliotēku, lai apstrādātu ar PDF metadatiem saistītus uzdevumus, piemēram:

  • PDF metadatu lasīšana: PyMuPDF atbalsta piekļuvi PDF dokumentu metadatiem, kas satur tādu informāciju kā autors, nosaukums, tēma un izveides datums utt.
  • PDF metadatu modificēšana: bibliotēka ļauj arī pārveidot PDF dokumentu metadatus.
  • Lasīt XML metadatus: PDF dokumentos ir arī XML metadati, kas neaprobežojas tikai ar standarta dokumenta rekvizītiem, piemēram, autoru, nosaukumu utt., un tiem var būt papildu metadati. Izmantojot PyMuPDF, izstrādātāji to var arī lasīt.
  • Mainīt XML metadatus: izstrādātāji var arī mainīt PDF failu XML metadatus, izmantojot PyMuPDF bibliotēku.
GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Darba sākšana ar PyMuPDF

Lai instalētu un izmantotu PyMuPDF, nepieciešama Python versija 3.8.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu PyMuPDF savā datorā, izmantojot pip un virtuālā vide.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Lasīt PDF metadatus

Mēs varam nolasīt PDF metadatus, izmantojot PyMuPDF bibliotēkas metadatu locekli, kas satur visu dokumenta metadatu saturu. Tālāk redzamais koda fragments parāda, kā iegūt PDF metadatus no metadatu dalībnieka:

Tālāk esošajā ekrānuzņēmumā ir parādīti izgūtie metadati no PDF, izmantojot PyMuPDF:

Rediģēt PDF metadatus

Mēs varam rediģēt PDF failu metadatus, izmantojot PyMuPDF bibliotēku, nosūtot vārdnīcu, kurā ir lauki, kurus vēlamies mainīt, un to jaunās vērtības metodei set_metadata, kā parādīts tālāk norādītajā koda fragmentā.

Lasiet PDF failu XML metadatus

Mēs varam izgūt PDF XML metadatus, izmantojot PyMuPDF bibliotēku. Mēs izmantojam metodi get_xml_metadata, kas atgriež visus XML metadatus, kā parādīts tālāk norādītajā koda fragmentā.

Tālāk esošajā ekrānuzņēmumā ir parādīti XML metadati, kas iegūti no PDF, izmantojot PyMuPDF:

Mainiet PDF failu XML metadatus

Mēs varam iestatīt vai mainīt PDF XML metadatus, izmantojot PyMuPDF bibliotēkas metodi set_xml_metadata. Tas nav tik vienkārši kā dokumenta līmeņa metadatu aizstāšana, jo set_xml_metadata pieņems jebkuru virkni un aizstās visus XML metadatus ar virkni, kas tai nodota.

Lai izvairītos no jebkādas metadatu informācijas nejaušas dzēšanas, mēs vispirms iegūstam pilnus XML metadatus kā virkni, izmantojot get_xml_metadata, un pēc tam izmantojam virknes replace metodi, lai aizstātu vēlamo. visbeidzot, mēs nododam visu XML ar mainītajiem laukiem metodei set_xml_metadata, kas maina visus PDF faila XML metadatus. Sīkāku informāciju skatiet tālāk norādītajā koda fragmentā.

Secinājums

Rezumējot, PyMuPDF ir lielisks rīks uzdevumiem, kas saistīti ar metadatu manipulācijām. Mēs varam viegli izgūt un mainīt PDF failu metadatu informāciju. Tomēr ievērojams trūkums ir set_xml_metadata metodē. Šī metode pieņem jebkuru tai nodoto virkni un ar to pārraksta iepriekšējo XML, kas var izraisīt netīšu informācijas zudumu, lai izvairītos no šīs problēmas, izstrādātājiem ir jāievieš sava loģika, lai nodrošinātu pareizas XML metadatu modifikācijas.

Similar Products

 Latvian