Бібліотека Python PDF Parser з відкритим кодом

Безкоштовна бібліотека Python із відкритим кодом для аналізу PDF-файлів і вилучення тексту з інформацією про форматування.

Що таке pdfminer.six?

Pdfminer.six — це бібліотека Python із відкритим кодом і набір інструментів для вилучення даних із PDF-документів. Ви можете аналізувати PDF-документи та видобувати текст, зміст, вміст із тегами тощо з PDF-файлів для аналізу даних.

Ось короткий перелік його функцій аналізу:

  • Вилучення тексту: вилучення текстового вмісту з PDF-документів, включаючи інформацію про макет і форматування, як-от колір тексту, шрифт, розташування тощо.
  • Вилучення інформації про шрифт: видобуток інформації про шрифти, які використовуються в документах PDF.
GitHub

Статистика GitHub

Ім'я:
Мова:
зірки:
Вилки:
Ліцензія:
Репозиторій востаннє оновлено о

Початок роботи з pdfminer.six

Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім використовуйте наведені нижче команди, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

вікна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Витягти текст із PDF-документа

Ви можете використовувати бібліотеку pdfminer.six у Python, щоб витягти текст із документа PDF за допомогою функції extract_text, як показано у фрагменті коду нижче:

На наступному знімку екрана показано текст, витягнутий із документа PDF:

Витяг інформації про шрифт із PDF-документа

Ми також можемо отримати інформацію про шрифти, які використовуються в PDF-документі, наприклад назву та розмір шрифту, переглядаючи елементи макета кожної сторінки в PDF-файлі. Наприклад, перегляньте наведений нижче фрагмент коду:

На наступному знімку екрана показано інформацію про шрифт, отриману з документа PDF:

Висновок

Підсумовуючи, pdfminer.six має можливість видобувати текст та іншу інформацію з PDF-документів, але йому бракує таких функцій, як вилучення зображень і таблиць із PDF-файлів.

Важливо зауважити, що бібліотека pdfminer.six підтримує видобування PDF-сторінок як зображень, але вона відрізняється від видобування зображень, вбудованих у PDF-документи, які не підтримуються pdfminer.six. Однак розробники все ще можуть покладатися на нього для аналізу PDF-файлів у Python, щоб отримати текст для своїх потреб аналізу даних.

Подібні Продукти

 Ukrainian