Python PDF Parser библиотека с отворен код
Безплатна библиотека на Python с отворен код за анализиране на PDF файлове и извличане на текст с информация за форматиране.
Какво е pdfminer.six?
Pdfminer.six е библиотека на Python с отворен код и набор от инструменти за извличане на данни от PDF документи. Можете да анализирате PDF документи и да извличате текст, съдържание и етикетирано съдържание и т.н. от PDF файлове за анализ на данни.
Ето кратък списък на неговите функции за анализ:
- Извличане на текст: Извличане на текстово съдържание от PDF документи, включително оформление и информация за форматиране като цвят на текста, шрифт и местоположение и др.
- Извличане на информация за шрифта: Извличане на информация за шрифтовете, използвани в PDF документи.
Първи стъпки с pdfminer.six
Имате нужда от Python версия 3.6.0 или по-нова, за да инсталирате и използвате pypdf. И така, първо инсталирайте Python и след това използвайте командите по-долу, за да инсталирате pypdf на вашата машина, като използвате pip и виртуална среда.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Извличане на текст от PDF документ
Можете да използвате библиотеката pdfminer.six в Python, за да извлечете текст от PDF документ, като използвате функцията extract_text, както е показано в кодовия фрагмент по-долу:
Изход
Следната екранна снимка показва текста, извлечен от PDF документа:
Извличане на информация за шрифта от PDF документ
Можем също да извлечем информацията за шрифтовете, използвани в PDF документа, като името на шрифта и размера на шрифта, като итерираме през елементите на оформлението на всяка страница в PDF документа. Например проверете кодовия фрагмент по-долу:
Изход
Следната екранна снимка показва информацията за шрифта, извлечена от PDF документа:
Заключение
В заключение, pdfminer.six има възможности за извличане на текст и друга информация от PDF документи, но му липсват функционалности като извличане на изображения и таблици от PDF файлове.
Важно е да се отбележи, че библиотеката pdfminer.six поддържа извличане на PDF страници като изображения, но е различно от извличането на изображения, вградени в PDF документите, което не се поддържа от pdfminer.six. Въпреки това разработчиците все още могат да разчитат на него за анализиране на PDF файлове в Python, за да извлекат текст за нуждите си от анализ на данни.