Бібліотека Python PDF Parser з відкритим кодом
Безкоштовна бібліотека Python із відкритим кодом для аналізу PDF-файлів і вилучення тексту з інформацією про форматування.
Що таке pdfminer.six?
Pdfminer.six — це бібліотека Python із відкритим кодом і набір інструментів для вилучення даних із PDF-документів. Ви можете аналізувати PDF-документи та видобувати текст, зміст, вміст із тегами тощо з PDF-файлів для аналізу даних.
Ось короткий перелік його функцій аналізу:
- Вилучення тексту: вилучення текстового вмісту з PDF-документів, включаючи інформацію про макет і форматування, як-от колір тексту, шрифт, розташування тощо.
- Вилучення інформації про шрифт: видобуток інформації про шрифти, які використовуються в документах PDF.
Початок роботи з pdfminer.six
Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім використовуйте наведені нижче команди, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
вікна
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Витягти текст із PDF-документа
Ви можете використовувати бібліотеку pdfminer.six у Python, щоб витягти текст із документа PDF за допомогою функції extract_text, як показано у фрагменті коду нижче:
На наступному знімку екрана показано текст, витягнутий із документа PDF:
Витяг інформації про шрифт із PDF-документа
Ми також можемо отримати інформацію про шрифти, які використовуються в PDF-документі, наприклад назву та розмір шрифту, переглядаючи елементи макета кожної сторінки в PDF-файлі. Наприклад, перегляньте наведений нижче фрагмент коду:
На наступному знімку екрана показано інформацію про шрифт, отриману з документа PDF:
Висновок
Підсумовуючи, pdfminer.six має можливість видобувати текст та іншу інформацію з PDF-документів, але йому бракує таких функцій, як вилучення зображень і таблиць із PDF-файлів.
Важливо зауважити, що бібліотека pdfminer.six підтримує видобування PDF-сторінок як зображень, але вона відрізняється від видобування зображень, вбудованих у PDF-документи, які не підтримуються pdfminer.six. Однак розробники все ще можуть покладатися на нього для аналізу PDF-файлів у Python, щоб отримати текст для своїх потреб аналізу даних.