Python библиотека с отворен код за конвертиране на PDF файлове в DOCX

Изследвайте силата на библиотеката на Python с отворен код, за да конвертирате PDF документи в DOCX от вашите приложения на Python.

Какво е pdf2docx?

Функции на API на pdf2docx

Следват някои от основните характеристики на API на pdf2docx:

  • Конвертиране на многостранични PDF файлове: Работи с многостранични PDF документи, като преобразува всяка страница в съответна секция в DOCX файла.
  • Извличане на текст: Ефективно извлича текст, като запазва оформлението и форматирането, подобно на оригиналния PDF.
  • Разпознаване и преобразуване на таблици: Използва интелигентни алгоритми за разпознаване и извличане на таблици, като ги преобразува в редактируеми таблици във формат DOCX.
  • Извличане на изображения: Извлича изображения, вградени в PDF файла, и ги поставя по подходящ начин в DOCX файла.
  • Стилове на шрифтове и форматиране: Запазва основни стилове на шрифтове и форматиране като получер, курсив и подчертавания по време на преобразуването.
  • Запазване на оформлението на страницата: Има за цел да запази оригиналното оформление на PDF файла, включително параграфи, колони и други форматиращи елементи.
  • Персонализирани настройки за преобразуване: Позволява определяне на персонализирани настройки за процеса на преобразуване, като игнориране на изображения или само извличане на текст.
  • Пакетна обработка: Поддържа групова обработка, позволявайки конвертиране на множество PDF файлове във формат DOCX едновременно.
  • Извличане, базирано на шаблон: За PDF файлове с последователно оформление, позволява дефинирането на шаблони за насочване на процеса на извличане, подобрявайки точността за конкретни типове документи.
GitHub

Статистика на GitHub

Име:
език:
звезди:
Вилици:
Разрешително:
Хранилището е последно актуализирано на

Първи стъпки с pdf2docx

Можете да изтеглите библиотеката pdf2docx от GitHub или да използвате командата pip install.

Монтаж

Инсталирането на pdf2docx е лесно и може да се извърши от терминала, както е показано по-долу:

Инсталиране на pdf2docx


pip3 install pdf2docx

pdf2docx Примери за код

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Конвертирайте PDF в DOCX с помощта на pdf2docx

С pdf2docx можете да конвертирате PDF документ в DOCX от вашето Python приложение. Използвайте следния примерен код във вашето приложение на Python, за да постигнете това.

Източник на изображението: pdf2docx Github Repo

Конвертирайте конкретни страници от PDF файл с помощта на pdf2docx

pdf2docx също ви позволява да конвертирате конкретни страници от PDF файл в DOCX. Вие определяте началната и крайната страница на PDF файл, който да бъде преобразуван в DOCX, след което API ги преобразува в DOCX.

Извличане на таблици от PDF файл с помощта на pdf2docx

pdf2docx също ви позволява да извличате таблици от PDF файл и да получавате текст от него. Като алтернатива можете да извлечете таблици от PDF файл и да ги запазите и в DOCX файлове.

pdf2docx Ограничения

pdf2docx също има някои ограничения, които трябва да имате предвид, докато работите с API. Това са:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • Нормална посока на четене, без трансформация/въртене на думата
  • Базираният на правила метод не може да конвертира на 100% PDF оформлението

pdf2docx ресурси

  • БЕЗПЛАТЕН PDF файл с шаблон
  • Заключение

    pdf2docx е много мощна библиотека за конвертиране на PDF в DOCX от вашите Python приложения. Като разработчик на приложения, можете да използвате този API, за да създавате мощни приложения за преобразуване на PDF и да ги хоствате онлайн за преобразуване на PDF в DOCX функционалност във вашето приложение.

    Подобни Продукти

     Bulgarian