Библиотека синтаксического анализатора PDF-файлов Python с открытым исходным кодом

Бесплатная библиотека Python с открытым исходным кодом для анализа PDF-файлов и извлечения текста с информацией о форматировании.

Что такое pdfminer.6?

Pdfminer.six — это библиотека Python с открытым исходным кодом и набор инструментов для извлечения данных из PDF-документов. Вы можете анализировать PDF-документы и извлекать текст, оглавление, содержимое с тегами и т. д. из PDF-файлов для анализа данных.

Вот краткий список возможностей синтаксического анализа:

  • Извлечение текста. Извлечение текстового содержимого из PDF-документов, включая информацию о макете и форматировании, такую как цвет текста, шрифт, расположение и т. д.
  • Извлечение информации о шрифтах. Извлечение информации о шрифтах, используемых в документах PDF.
GitHub

Статистика GitHub

Имя:
Язык:
Звезды:
Вилки:
Лицензия:
Репозиторий последний раз обновлялся на

Начало работы с pdfminer.six

Для установки и использования pypdf вам потребуется Python версии 3.6.0 или выше. Итак, сначала установите Python, а затем используйте приведенные ниже команды для установки pypdf на свой компьютер, используя pip и виртуальная среда.

Линукс


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Окна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Извлечь текст из PDF-документа

Вы можете использовать библиотеку pdfminer.six в Python для извлечения текста из PDF-документа с помощью функции extract_text, как показано в приведенном ниже фрагменте кода:

Выход

На следующем снимке экрана показан текст, извлеченный из PDF-документа:

Извлечение информации о шрифте из PDF-документа

Мы также можем извлечь информацию о шрифтах, используемых в PDF-документе, например имя шрифта и размер шрифта, перебирая элементы макета каждой страницы PDF-файла. Например, проверьте приведенный ниже фрагмент кода:

Выход

На следующем снимке экрана показана информация о шрифте, извлеченная из PDF-документа:

Заключение

В заключение, pdfminer.six имеет возможность извлекать текст и другую информацию из PDF-документов, но ему не хватает таких функций, как извлечение изображений и таблиц из PDF-файлов.

Важно отметить, что библиотека pdfminer.six поддерживает извлечение страниц PDF в виде изображений, но это отличается от извлечения изображений, встроенных в документы PDF, которое не поддерживается pdfminer.six. Тем не менее, разработчики по-прежнему могут полагаться на него при анализе PDF-файлов в Python для извлечения текста для своих нужд анализа данных.

Похожие Продукты

 Русский