Библиотека слияния PDF-файлов с открытым исходным кодом Python
Попробуйте эту удобную библиотеку Python с открытым исходным кодом, которая позволяет легко разделять, объединять, вращать, менять местами и удалять страницы, что делает ее универсальным инструментом для ваших потребностей в PDF-документах.
Что такое PyMuPDF?
PyMuPDF, также известный как Fitz, представляет собой библиотеку Python с открытым исходным кодом, которая предоставляет полный набор инструментов для работы с файлами PDF. С помощью PyMuPDF пользователи могут эффективно выполнять такие задачи, как открытие PDF-файлов, извлечение текста и изображений, управление свойствами страницы, такими как вращение и обрезка, создание новых PDF-документов и преобразование PDF-страниц в изображения.
PyMuPDF поддерживает несколько функций. Однако в этом обзоре основное внимание будет уделено функциям библиотеки разделения PDF-файлов, их слияния и управления страницами. Для более подробной оценки возможностей извлечения и синтаксического анализа нажмите здесь.
Начало работы с PyMuPDF
Для установки и использования PyMuPDF вам потребуется Python версии 3.8.0 или выше. Итак, сначала установите Python, а затем используйте приведенные ниже команды для установки PyMuPDF на свой компьютер с помощью pip и виртуальная среда.
Линукс
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Окна
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Объединение нескольких PDF-файлов в один
Используя библиотеку PyMuPDF, мы можем объединить несколько PDF-файлов в один PDF-файл на Python. Следующий фрагмент кода объединяет два PDF-документа, добавляя один за другим и сохраняя его как новый документ:
Разделить PDF на несколько файлов
Также возможно разделить PDF-документ на несколько PDF-файлов в Python с помощью библиотеки PyMuPDF. Следующий фрагмент кода разделяет первые две страницы документа и сохраняет их как отдельный PDF-файл:
Поворот страниц PDF
Мы также можем вращать страницы PDF-файла, используя библиотеку PyMuPDF. Мы будем использовать функцию set_rotation для поворота страниц в приведенном ниже фрагменте кода:
Выход
Как мы видим, документ повёрнут на 90 градусов.
Удалить PDF-страницы
PyMuPDF также можно использовать для удаления страниц PDF-файла. Мы будем использовать функцию delete_page для удаления страниц. Ниже приведен документ, который является входными, и код удалит его вторую страницу:
Выход
На изображении ниже показан измененный PDF-файл, из которого удалена вторая страница.
Заключение
PyMuPDF может похвастаться замечательными возможностями в объединении и манипулировании страницами PDF-документов. Его гибкость и эффективность при повороте, обрезке, изменении размера и удалении страниц делают его надежным выбором для задач редактирования PDF-файлов. Кроме того, способность PyMuPDF плавно объединять несколько PDF-документов является заметным преимуществом.
Однако его относительно сложный API может потребовать обучения для новичков, и могут возникнуть некоторые ограничения при обработке чрезвычайно больших или сложных PDF-файлов, которые могут повлиять на производительность. Тем не менее, его обширные возможности в этих областях делают его ценным инструментом для тех, кто ищет точный контроль над содержимым PDF.