Python библиотека с отворен код за конвертиране на PDF файлове в DOCX
Изследвайте силата на библиотеката на Python с отворен код, за да конвертирате PDF документи в DOCX от вашите приложения на Python.
Какво е pdf2docx?
Функции на API на pdf2docx
Следват някои от основните характеристики на API на pdf2docx:
- Конвертиране на многостранични PDF файлове: Работи с многостранични PDF документи, като преобразува всяка страница в съответна секция в DOCX файла.
- Извличане на текст: Ефективно извлича текст, като запазва оформлението и форматирането, подобно на оригиналния PDF.
- Разпознаване и преобразуване на таблици: Използва интелигентни алгоритми за разпознаване и извличане на таблици, като ги преобразува в редактируеми таблици във формат DOCX.
- Извличане на изображения: Извлича изображения, вградени в PDF файла, и ги поставя по подходящ начин в DOCX файла.
- Стилове на шрифтове и форматиране: Запазва основни стилове на шрифтове и форматиране като получер, курсив и подчертавания по време на преобразуването.
- Запазване на оформлението на страницата: Има за цел да запази оригиналното оформление на PDF файла, включително параграфи, колони и други форматиращи елементи.
- Персонализирани настройки за преобразуване: Позволява определяне на персонализирани настройки за процеса на преобразуване, като игнориране на изображения или само извличане на текст.
- Пакетна обработка: Поддържа групова обработка, позволявайки конвертиране на множество PDF файлове във формат DOCX едновременно.
- Извличане, базирано на шаблон: За PDF файлове с последователно оформление, позволява дефинирането на шаблони за насочване на процеса на извличане, подобрявайки точността за конкретни типове документи.
Първи стъпки с pdf2docx
Можете да изтеглите библиотеката pdf2docx от GitHub или да използвате командата pip install.
Монтаж
Инсталирането на pdf2docx е лесно и може да се извърши от терминала, както е показано по-долу:
Инсталиране на pdf2docx
pip3 install pdf2docx
pdf2docx Примери за код
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.Конвертирайте PDF в DOCX с помощта на pdf2docx
С pdf2docx можете да конвертирате PDF документ в DOCX от вашето Python приложение. Използвайте следния примерен код във вашето приложение на Python, за да постигнете това.
Източник на изображението: pdf2docx Github Repo
Конвертирайте конкретни страници от PDF файл с помощта на pdf2docx
pdf2docx също ви позволява да конвертирате конкретни страници от PDF файл в DOCX. Вие определяте началната и крайната страница на PDF файл, който да бъде преобразуван в DOCX, след което API ги преобразува в DOCX.
Извличане на таблици от PDF файл с помощта на pdf2docx
pdf2docx също ви позволява да извличате таблици от PDF файл и да получавате текст от него. Като алтернатива можете да извлечете таблици от PDF файл и да ги запазите и в DOCX файлове.
pdf2docx Ограничения
pdf2docx също има някои ограничения, които трябва да имате предвид, докато работите с API. Това са:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- Нормална посока на четене, без трансформация/въртене на думата
- Базираният на правила метод не може да конвертира на 100% PDF оформлението
pdf2docx ресурси
Заключение
pdf2docx е много мощна библиотека за конвертиране на PDF в DOCX от вашите Python приложения. Като разработчик на приложения, можете да използвате този API, за да създавате мощни приложения за преобразуване на PDF и да ги хоствате онлайн за преобразуване на PDF в DOCX функционалност във вашето приложение.
Подобни Продукти
- Apache POI XWPF | Java API с отворен код за създаване и модифициране на DOCX файлове
- DocX | .NET API с отворен код за създаване и модифициране на DOCX файлове
- Docx4J | Java API с отворен код за създаване и модифициране на DOC и DOCX файлове
- ExcelDataReader | .NET API с отворен код за четене на XLS, XLSX, CSV и електронни таблици документи
- FileFormat.Cells | Сертирайте и актуализирайте Excel файлове с C# .NET