Библиотека синтаксического анализатора PDF-файлов Python с открытым исходным кодом
Бесплатная библиотека Python с открытым исходным кодом для анализа PDF-файлов и извлечения текста с информацией о форматировании.
Что такое pdfminer.6?
Pdfminer.six — это библиотека Python с открытым исходным кодом и набор инструментов для извлечения данных из PDF-документов. Вы можете анализировать PDF-документы и извлекать текст, оглавление, содержимое с тегами и т. д. из PDF-файлов для анализа данных.
Вот краткий список возможностей синтаксического анализа:
- Извлечение текста. Извлечение текстового содержимого из PDF-документов, включая информацию о макете и форматировании, такую как цвет текста, шрифт, расположение и т. д.
- Извлечение информации о шрифтах. Извлечение информации о шрифтах, используемых в документах PDF.
Начало работы с pdfminer.six
Для установки и использования pypdf вам потребуется Python версии 3.6.0 или выше. Итак, сначала установите Python, а затем используйте приведенные ниже команды для установки pypdf на свой компьютер, используя pip и виртуальная среда.
Линукс
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Окна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Извлечь текст из PDF-документа
Вы можете использовать библиотеку pdfminer.six в Python для извлечения текста из PDF-документа с помощью функции extract_text, как показано в приведенном ниже фрагменте кода:
Выход
На следующем снимке экрана показан текст, извлеченный из PDF-документа:
Извлечение информации о шрифте из PDF-документа
Мы также можем извлечь информацию о шрифтах, используемых в PDF-документе, например имя шрифта и размер шрифта, перебирая элементы макета каждой страницы PDF-файла. Например, проверьте приведенный ниже фрагмент кода:
Выход
На следующем снимке экрана показана информация о шрифте, извлеченная из PDF-документа:
Заключение
В заключение, pdfminer.six имеет возможность извлекать текст и другую информацию из PDF-документов, но ему не хватает таких функций, как извлечение изображений и таблиц из PDF-файлов.
Важно отметить, что библиотека pdfminer.six поддерживает извлечение страниц PDF в виде изображений, но это отличается от извлечения изображений, встроенных в документы PDF, которое не поддерживается pdfminer.six. Тем не менее, разработчики по-прежнему могут полагаться на него при анализе PDF-файлов в Python для извлечения текста для своих нужд анализа данных.