PyMuPDF
Python библиотека с отворен код за управление на PDF метаданни
Опитайте PyMuPDF, безплатна библиотека Python с отворен код за достъп и модифициране на метаданни на PDF документи.
Какво е PyMuPDF?
PyMuPDF, известен също като Fitz, е библиотека на Python с отворен код, която предлага много функции като анализ на PDF файлове, разделяне и обединяване на PDF файлове и т.н., но на тази страница ще обсъдим само това как разработчиците на Python могат да използват библиотеката PyMuPDF, за да обработват задачи, свързани с PDF метаданни, като например:
- Четене на PDF метаданни: PyMuPDF поддържа достъп до метаданни на PDF документи, съдържащи информация като автор, заглавие, тема и дата на създаване и др.
- Промяна на метаданни на PDF: Библиотеката също така позволява модифициране на метаданни на PDF документи.
- Четене на XML метаданни: PDF документите също съдържат XML метаданни, които не се ограничават до стандартни свойства на документа като автор, заглавие и т.н. и могат да имат допълнителни метаданни. С PyMuPDF разработчиците също могат да го четат.
- Промяна на XML метаданни: Разработчиците могат също да променят XML метаданни на PDF файлове с помощта на библиотеката PyMuPDF.
Първи стъпки с PyMuPDF
Имате нужда от Python версия 3.8.0 или по-нова, за да инсталирате и използвате PyMuPDF. Така че, първо инсталирайте Python и след това използвайте командите по-долу, за да инсталирате PyMuPDF на вашата машина, като използвате pip и виртуална среда.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Прочетете PDF метаданни
Можем да четем метаданни на PDF, като използваме члена метаданни на библиотеката PyMuPDF, който съдържа пълното съдържание на метаданни на документа. Кодовият фрагмент по-долу показва как да получите метаданните на PDF от члена metadata:
Изход
Екранната снимка по-долу показва извлечените метаданни от PDF с помощта на PyMuPDF:
Редактиране на PDF метаданни
Можем да редактираме метаданните на PDF файлове с помощта на библиотеката PyMuPDF, като предадем речник, съдържащ полетата, които искаме да променим, заедно с новите им стойности към метода set_metadata, както е показано в кодовия фрагмент по-долу:
Четете XML метаданни на PDF файлове
Можем да извлечем XML метаданни на PDF с помощта на библиотеката PyMuPDF. Използваме метода get_xml_metadata, който връща всички XML метаданни, както е показано в кодовия фрагмент по-долу:
Изход
Екранната снимка по-долу показва XML метаданните, извлечени от PDF с помощта на PyMuPDF:
Промяна на XML метаданни на PDF файлове
Можем да зададем или променим XML метаданните на PDF, като използваме метода set_xml_metadata на библиотеката PyMuPDF. Не е толкова лесно като замяната на метаданните на ниво документ, тъй като set_xml_metadata ще приеме всеки низ и ще замени пълните XML метаданни с низа, който му е подаден.
За да избегнем неволно изтриване на каквато и да е информация за метаданни, първо извличаме пълните XML метаданни като низ с помощта на get_xml_metadata и след това използваме метода replace на низ, за да заменим желания накрая, предаваме пълния XML с променени полета към метода set_xml_metadata, който променя всички XML метаданни на PDF файла. Проверете кодовия фрагмент по-долу за подробности:
Заключение
В обобщение, PyMuPDF е чудесен инструмент за задачи, свързани с манипулиране на метаданни. Можем лесно да извличаме и променяме информацията за метаданни на PDF файловете. Въпреки това, забележителна слабост се крие в метода set_xml_metadata. Този метод приема всеки низ, предаден му, и презаписва предишния XML с него, което може да причини неволна загуба на информация, за да се избегне този проблем, от разработчиците се изисква да внедрят своята логика, за да осигурят правилни модификации в XML метаданните.