Бібліотека анотацій PDF Python з відкритим кодом
Спробуйте цю безкоштовну бібліотеку Python із відкритим вихідним кодом для додавання та вилучення анотацій із документів PDF.
Що таке pypdf?
Pypdf — це безкоштовна бібліотека Python із відкритим вихідним кодом, відома своїм різноманітним набором функцій для обробки документів PDF у середовищі Python. Цей інструмент дуже корисний для різноманітних маніпуляцій із PDF-файлами, але в цьому огляді ми зосередимося на його функціях, пов’язаних із анотаціями.
Відомі особливості pypdf, пов’язані з анотаціями, включають:
- Додавання приміток до фігур: ми можемо малювати такі форми, як лінії, прямокутники, еліпси та багатокутники тощо, на певних ділянках сторінок PDF як примітки.
- Додавання текстових анотацій: ми можемо додавати текстові анотації до певних позицій PDF-сторінок.
- Додавання анотацій посилань: можна також додавати анотації посилань (наприклад, гіперпосилання) до документів PDF.
- Вилучення анотацій: ми можемо повторювати та витягувати інформацію про всі анотації в документі PDF за допомогою бібліотеки pypdf.
Початок роботи з pypdf
Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім використовуйте наведені нижче команди, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
вікна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Додайте прямокутну анотацію до PDF
Ми можемо додавати прямокутні анотації до документів PDF за допомогою бібліотеки pypdf. Ми використаємо клас Rectangle модуля pypdf.annotations з бібліотеки pypdf для визначення прямокутника. Потім ми використаємо метод add_annotations класу PDFWriter, щоб додати прямокутну анотацію до PDF-файлу.
Подробиці дивіться у фрагменті коду нижче:
На знімку екрана нижче ви можете побачити, що прямокутник додано до слова Open Source:
Додати текстову анотацію до PDF
Ми створюємо текстові анотації за допомогою класу Text із модуля pypdf.annotations бібліотеки pypdf. Після цього ми можемо використати метод add_annotations класу PDFWriter з бібліотеки pypdf, щоб додати анотацію до PDF-файлу. Текстову анотацію додається як піктограму, яка розгортається та відображає текст, коли клацнути піктограму. Подробиці дивіться у фрагменті коду нижче:
Як ми бачимо на наведеному нижче скрінкасті, код вище додає піктограму до PDF-файлу у вказаній позиції, яка показує текстову анотацію, коли натискається піктограма:
Додати анотацію посилання до PDF
Анотації посилань створюються за допомогою класу Link із модуля pypdf.annotations. Однак проблема з анотацією посилання полягає в тому, що вона лише додає посилання, але не відображається. Щоб вирішити цю проблему, ми включимо прямокутник за допомогою класу Rectangle з модуля pypdf.annotations, як ми пояснювали раніше. Таким чином, користувач може візуально визначити місце, де додається анотація посилання. Перегляньте наведений нижче фрагмент коду для кращого розуміння:
Як ми бачимо у виведених даних, прямокутник служить областю, яка при клацанні перенаправляє користувача на вказане посилання.
Витягти анотації з PDF
Ми можемо отримати анотації з PDF за допомогою бібліотеки pypdf. Ми переглядаємо всі анотації на сторінках PDF, а потім використовуємо метод get_object, щоб отримати об’єкт анотації. Потім ми витягуємо релевантну інформацію з об’єкта. Подробиці дивіться у фрагменті коду нижче:
Як ми бачимо на знімку екрана нижче, програма повернула тип анотації та координати анотацій у PDF-документі:
Висновок
Pypdf дає змогу розробникам Python додавати різні типи анотацій до PDF-файлів і отримувати доступ до важливої інформації про анотації, як-от їхній тип і розташування, що робить його практичним вибором для завдань, які вимагають додавання анотацій і отримання даних про анотації.