Python PDF Parser библиотека с отворен код

Безплатна библиотека на Python с отворен код за анализиране на PDF файлове и извличане на текст с информация за форматиране.

Какво е pdfminer.six?

Pdfminer.six е библиотека на Python с отворен код и набор от инструменти за извличане на данни от PDF документи. Можете да анализирате PDF документи и да извличате текст, съдържание и етикетирано съдържание и т.н. от PDF файлове за анализ на данни.

Ето кратък списък на неговите функции за анализ:

  • Извличане на текст: Извличане на текстово съдържание от PDF документи, включително оформление и информация за форматиране като цвят на текста, шрифт и местоположение и др.
  • Извличане на информация за шрифта: Извличане на информация за шрифтовете, използвани в PDF документи.
GitHub

Статистика на GitHub

Име:
език:
звезди:
Вилици:
Разрешително:
Хранилището е последно актуализирано на

Първи стъпки с pdfminer.six

Имате нужда от Python версия 3.6.0 или по-нова, за да инсталирате и използвате pypdf. И така, първо инсталирайте Python и след това използвайте командите по-долу, за да инсталирате pypdf на вашата машина, като използвате pip и виртуална среда.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Извличане на текст от PDF документ

Можете да използвате библиотеката pdfminer.six в Python, за да извлечете текст от PDF документ, като използвате функцията extract_text, както е показано в кодовия фрагмент по-долу:

Изход

Следната екранна снимка показва текста, извлечен от PDF документа:

Извличане на информация за шрифта от PDF документ

Можем също да извлечем информацията за шрифтовете, използвани в PDF документа, като името на шрифта и размера на шрифта, като итерираме през елементите на оформлението на всяка страница в PDF документа. Например проверете кодовия фрагмент по-долу:

Изход

Следната екранна снимка показва информацията за шрифта, извлечена от PDF документа:

Заключение

В заключение, pdfminer.six има възможности за извличане на текст и друга информация от PDF документи, но му липсват функционалности като извличане на изображения и таблици от PDF файлове.

Важно е да се отбележи, че библиотеката pdfminer.six поддържа извличане на PDF страници като изображения, но е различно от извличането на изображения, вградени в PDF документите, което не се поддържа от pdfminer.six. Въпреки това разработчиците все още могат да разчитат на него за анализиране на PDF файлове в Python, за да извлекат текст за нуждите си от анализ на данни.

Подобни Продукти

 Bulgarian