PyMuPDF

Open Source Python Library pro správu PDF metadat

Vyzkoušejte PyMuPDF, Free & Open Source Python knihovnu pro přístup a úpravu metadat dokumentů PDF.

Co je PyMuPDF?

PyMuPDF, také známý jako Fitz, je open source knihovna Pythonu, která nabízí mnoho funkcí, jako je analýza PDF, rozdělování a slučování PDF atd., ale na této stránce budeme diskutovat pouze o tom, jak mohou vývojáři Pythonu používat knihovnu PyMuPDF ke zpracování úloh souvisejících s metadaty PDF, jako jsou:

Čtení metadat PDF: PyMuPDF podporuje přístup k metadatům dokumentů PDF obsahujících informace, jako je autor, název, předmět a datum vytvoření atd.
Upravit metadata PDF: Knihovna také umožňuje upravovat metadata dokumentů PDF.
Čtení metadat XML: Dokumenty PDF také obsahují metadata XML, která se neomezují na standardní vlastnosti dokumentu, jako je autor, název atd., a mohou mít další metadata. S PyMuPDF si jej mohou přečíst i vývojáři.
Změna XML metadat: Vývojáři mohou také měnit XML metadata souborů PDF pomocí knihovny PyMuPDF.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Začínáme s PyMuPDF

K instalaci a používání PyMuPDF potřebujete Python verze 3.8.0 nebo vyšší. Nejprve tedy nainstalujte Python a poté pomocí níže uvedených příkazů nainstalujte PyMuPDF na váš počítač pomocí pip a virtuální prostředí.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Přečtěte si metadata PDF

Metadata PDF můžeme číst pomocí člena metadata knihovny PyMuPDF, který obsahuje kompletní metadatový obsah dokumentu. Níže uvedený fragment kódu ukazuje, jak získat metadata souboru PDF od člena metadata:

Výstup

Níže uvedený snímek obrazovky ukazuje načtená metadata z PDF pomocí PyMuPDF:

Upravit metadata PDF

Metadata souborů PDF můžeme upravovat pomocí knihovny PyMuPDF tak, že předáme slovník obsahující pole, která chceme změnit, spolu s jejich novými hodnotami metodě set_metadata, jak je znázorněno na úryvku kódu níže:

Čtení metadat XML souborů PDF

Můžeme načíst XML metadata PDF pomocí knihovny PyMuPDF. Používáme metodu get_xml_metadata, která vrací celá metadata XML, jak je znázorněno na níže uvedeném úryvku kódu:

Výstup

Níže uvedený snímek obrazovky ukazuje metadata XML získaná z PDF pomocí PyMuPDF:

Změna metadat XML souborů PDF

Metadata XML můžeme nastavit nebo změnit pomocí metody set_xml_metadata knihovny PyMuPDF. Není to tak jednoduché jako nahrazení metadat na úrovni dokumentu, protože set_xml_metadata přijme jakýkoli řetězec a nahradí kompletní metadata XML řetězcem, který mu byl předán.

Abychom se vyhnuli neúmyslnému smazání jakýchkoli metadatových informací, nejprve načteme úplná metadata XML jako řetězec pomocí get_xml_metadata a poté pomocí metody nahradit řetězec nahradíme požadovaný informace nakonec předáme kompletní XML se změněnými poli metodě set_xml_metadata, která změní celá XML metadata PDF. Podrobnosti naleznete ve fragmentu kódu níže:

Závěr

Stručně řečeno, PyMuPDF je skvělý nástroj pro úkoly související s manipulací s metadaty. Můžeme snadno načíst a změnit informace o metadatech PDF. Pozoruhodná slabina však spočívá v metodě set_xml_metadata. Tato metoda přijímá jakýkoli řetězec, který jí byl předán, a přepisuje jím předchozí XML, což může způsobit neúmyslnou ztrátu informací, aby se tomuto problému předešlo. Vývojáři musí implementovat svou logiku, aby zajistili správné úpravy v metadatech XML.

PyMuPDF

Open Source Python Library pro správu PDF metadat

Vyzkoušejte PyMuPDF, Free & Open Source Python knihovnu pro přístup a úpravu metadat dokumentů PDF.

Co je PyMuPDF?

Statistiky GitHubu

Začínáme s PyMuPDF

Linux

MacOS

Windows

Přečtěte si metadata PDF

Výstup

Upravit metadata PDF

Čtení metadat XML souborů PDF

Výstup

Změna metadat XML souborů PDF

Závěr

Podobné Produkty