Библиотека Python PDF Parser с открытым исходным кодом
Бесплатная библиотека Python с открытым исходным кодом для анализа PDF-файлов и извлечения текста с информацией о форматировании.
Что такое pdfminer.six?
Pdfminer.six — это библиотека Python с открытым исходным кодом и набор инструментов для извлечения данных из PDF-документов. Вы можете анализировать PDF-документы и извлекать текст, оглавление и тегированное содержимое и т. д. из PDF-файлов для анализа данных.
Вот краткий список возможностей анализа:
- Извлечение текста:извлечение текстового содержимого из PDF-документов, включая информацию о макете и форматировании, такую как цвет текста, шрифт, местоположение и т. д.
- Извлечение информации о шрифтах: извлечение информации о шрифтах, используемых в документах PDF.
Начало работы с pdfminer.six
Вам понадобится Python версии 3.6.0 или выше для установки и использования pypdf. Поэтому сначала установите Python, а затем используйте команды ниже для установки pypdf на свой компьютер с помощью pip и виртуальной среды.
линукс
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Окна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Извлечь текст из PDF-документа
Вы можете использовать библиотеку pdfminer.six в Python для извлечения текста из PDF-документа с помощью функции extract_text, как показано в приведенном ниже фрагменте кода:
Выход
На следующем снимке экрана показан текст, извлеченный из PDF-документа:
Извлечь информацию о шрифте из PDF-документа
Мы также можем извлечь информацию о шрифтах, используемых в документе PDF, например, название шрифта и размер шрифта, перебирая элементы макета каждой страницы в PDF. Например, проверьте фрагмент кода ниже:
Выход
На следующем снимке экрана показана информация о шрифте, извлеченная из PDF-документа:
Заключение
В заключение следует отметить, что pdfminer.six способен извлекать текст и другую информацию из PDF-документов, но ему не хватает таких функций, как извлечение изображений и таблиц из PDF-файлов.
Важно отметить, что библиотека pdfminer.six поддерживает извлечение страниц PDF как изображений, но это отличается от извлечения изображений, встроенных в документы PDF, которое не поддерживается pdfminer.six. Тем не менее, разработчики все равно могут полагаться на нее для анализа PDF в Python, чтобы извлекать текст для своих нужд анализа данных.
Похожие Продукты
- API spaCy – Промышленно-уровневая обработка естественного языка
- docTR API - Оптическое распознавание символов (OCR) на Python
- EasyOCR API – Полноценное оптическое распознавание символов на Python
- PaddleOCR API – Высокопроизводительное оптическое распознавание символов
- PyMuPDF Python API | Расширенный анализ и извлечение PDF-файлов