Библиотека метаданных PDF с открытым исходным кодом Python
Бесплатная библиотека Python с открытым исходным кодом для чтения и обновления метаданных PDF-документов.
Что такое pypdf?
Pypdf — это универсальная библиотека Python с открытым исходным кодом, известная своим разнообразным набором функций для работы с PDF. Эта библиотека действительно полезна для различных операций с PDF, таких как анализ PDF и разделение и слияние PDF и т. д., но в этом обзоре продукта мы сосредоточимся только на функциях управления метаданными PDF.
Ниже приведены основные функции pypdf, связанные с метаданными:
- Чтение метаданных PDF: вы можете читать свойства (такие как автор, создатель, производитель, название, тема и ключевые слова) PDF-документов с помощью pypdf.
- Обновление метаданных PDF: Вы также можете обновить метаданные PDF-документов с помощью pypdf.
Начало работы с pypdf
Вам понадобится Python версии 3.6.0 или выше для установки и использования pypdf. Поэтому сначала установите Python, а затем используйте команды ниже для установки pypdf на свой компьютер с помощью pip и виртуальной среды.
линукс
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Окна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Чтение метаданных PDF
Мы можем прочитать метаданные документа PDF с помощью библиотеки pypdf. Мы получим метаданные PDF из свойства metadata класса PdfReader в библиотеке pypdf. Проверьте фрагмент кода ниже для получения подробной информации:
Выход
На снимке экрана ниже показаны метаданные предоставленного PDF-файла:
Обновление метаданных PDF
Мы также можем обновить метаданные документа PDF, такие как автор, производитель, тема и заголовок и т. д., используя библиотеку pypdf. Мы передадим объект, содержащий информацию о метаданных, в метод add_metadata класса PdfWriter в библиотеке pypdf для обновления/записи метаданных документа PDF. Для получения подробной информации проверьте приведенный ниже фрагмент кода:
Заключение
В заключение, pypdf оказывается исключительной библиотекой Python для чтения и обновления метаданных PDF-документов. Разработчики могут легко читать и обновлять метаданные PDF-документов без каких-либо проблем.