Библиотека Python PDF Parser с открытым исходным кодом

Бесплатная библиотека Python с открытым исходным кодом для анализа PDF-файлов и извлечения текста с информацией о форматировании.

Что такое pdfminer.six?

Pdfminer.six — это библиотека Python с открытым исходным кодом и набор инструментов для извлечения данных из PDF-документов. Вы можете анализировать PDF-документы и извлекать текст, оглавление и тегированное содержимое и т. д. из PDF-файлов для анализа данных.

Вот краткий список возможностей анализа:

  • Извлечение текста:извлечение текстового содержимого из PDF-документов, включая информацию о макете и форматировании, такую как цвет текста, шрифт, местоположение и т. д.
  • Извлечение информации о шрифтах: извлечение информации о шрифтах, используемых в документах PDF.
GitHub

Статистика GitHub

Имя:
Язык:
Звезды:
Вилки:
Лицензия:
Репозиторий последний раз обновлялся на

Начало работы с pdfminer.six

Вам понадобится Python версии 3.6.0 или выше для установки и использования pypdf. Поэтому сначала установите Python, а затем используйте команды ниже для установки pypdf на свой компьютер с помощью pip и виртуальной среды.

линукс


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Окна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Извлечь текст из PDF-документа

Вы можете использовать библиотеку pdfminer.six в Python для извлечения текста из PDF-документа с помощью функции extract_text, как показано в приведенном ниже фрагменте кода:

Выход

На следующем снимке экрана показан текст, извлеченный из PDF-документа:

Извлечь информацию о шрифте из PDF-документа

Мы также можем извлечь информацию о шрифтах, используемых в документе PDF, например, название шрифта и размер шрифта, перебирая элементы макета каждой страницы в PDF. Например, проверьте фрагмент кода ниже:

Выход

На следующем снимке экрана показана информация о шрифте, извлеченная из PDF-документа:

Заключение

В заключение следует отметить, что pdfminer.six способен извлекать текст и другую информацию из PDF-документов, но ему не хватает таких функций, как извлечение изображений и таблиц из PDF-файлов.

Важно отметить, что библиотека pdfminer.six поддерживает извлечение страниц PDF как изображений, но это отличается от извлечения изображений, встроенных в документы PDF, которое не поддерживается pdfminer.six. Тем не менее, разработчики все равно могут полагаться на нее для анализа PDF в Python, чтобы извлекать текст для своих нужд анализа данных.

Похожие Продукты

 Русский