Библиотека метаданных PDF с открытым исходным кодом Python
Бесплатная библиотека Python с открытым исходным кодом для чтения и обновления метаданных PDF-документов.
Что такое pypdf?
Pypdf — это универсальная библиотека Python с открытым исходным кодом, известная своим разнообразным набором функций для работы с PDF-файлами. Эта библиотека пригодится для различных манипуляций с PDF-файлами, таких как анализ PDF и разделение и слияние PDF-файлов. и т. д., но в этом обзоре продукта мы сосредоточимся только на его функциях управления метаданными PDF.
Ниже приведены основные функции pypdf, связанные с метаданными:
- Чтение метаданных PDF: вы можете читать свойства (такие как автор, создатель, производитель, название, тема и ключевые слова) PDF-документов с помощью pypdf.
- Обновить метаданные PDF. Вы также можете обновить метаданные PDF-документов с помощью pypdf.
Начало работы с pypdf
Для установки и использования pypdf вам потребуется Python версии 3.6.0 или выше. Итак, сначала установите Python, а затем используйте приведенные ниже команды для установки pypdf на свой компьютер, используя pip и виртуальная среда.
Линукс
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Окна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Чтение метаданных PDF
Мы можем прочитать метаданные PDF-документа, используя библиотеку pypdf. Мы получим метаданные PDF-файла из свойства metadata класса PdfReader в библиотеке pypdf. Подробности смотрите в приведенном ниже фрагменте кода:
Выход
На снимке экрана ниже показаны метаданные предоставленного PDF-файла:
Обновление метаданных PDF
Мы также можем обновить метаданные PDF-документа, такие как автор, производитель, тема, название и т. д., используя библиотеку pypdf. Мы передадим объект, содержащий информацию о метаданных, в метод add_metadata класса PdfWriter в библиотеке pypdf для обновления/записи метаданных PDF-документа. Подробности смотрите в приведенном ниже фрагменте кода:
Заключение
В заключение отметим, что pypdf — это исключительная библиотека Python для чтения и обновления метаданных PDF-документов. Разработчики могут легко читать и обновлять метаданные PDF-документов без каких-либо проблем.