Бібліотека Python PDF Parser з відкритим кодом

Безкоштовна бібліотека Python із відкритим вихідним кодом для аналізу PDF-файлів і вилучення тексту з інформацією про форматування.

Що таке pdfminer.six?

Pdfminer.six — це бібліотека Python із відкритим кодом і набір інструментів для вилучення даних із PDF-документів. Ви можете аналізувати PDF-документи та видобувати текст, зміст, вміст із тегами тощо з PDF-файлів для аналізу даних.

Ось короткий перелік його функцій аналізу:

Вилучення тексту: вилучення текстового вмісту з PDF-документів, включаючи інформацію про макет і форматування, як-от колір тексту, шрифт, розташування тощо.
Вилучення інформації про шрифт: видобуток інформації про шрифти, які використовуються в документах PDF.

Статистика GitHub

Ім'я:
Мова:
зірки:
Вилки:
Ліцензія:
Репозиторій востаннє оновлено о

Початок роботи з pdfminer.six

Для встановлення та використання pypdf вам потрібна версія Python 3.6.0 або новіша. Отже, спочатку встановіть Python, а потім скористайтеся наведеними нижче командами, щоб установити pypdf на ваш комп’ютер за допомогою pip і віртуальне середовище.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

вікна


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Витягти текст із PDF-документа

Ви можете використовувати бібліотеку pdfminer.six у Python, щоб витягнути текст із документа PDF за допомогою функції extract_text, як показано у фрагменті коду нижче:

Вихід

На наступному знімку екрана показано текст, витягнутий із документа PDF:

Витяг інформації про шрифт із PDF-документа

Ми також можемо отримати інформацію про шрифти, які використовуються в PDF-документі, наприклад назву та розмір шрифту, переглядаючи елементи макета кожної сторінки в PDF-файлі. Наприклад, перегляньте наведений нижче фрагмент коду:

Вихід

На наступному знімку екрана показано інформацію про шрифт, отриману з документа PDF:

Висновок

Підсумовуючи, pdfminer.six має здатність витягувати текст та іншу інформацію з PDF-документів, але йому бракує таких функцій, як вилучення зображень і таблиць із PDF-файлів.

Важливо зауважити, що бібліотека pdfminer.six підтримує видобування PDF-сторінок як зображень, але вона відрізняється від видобування зображень, вбудованих у PDF-документи, які не підтримуються pdfminer.six. Однак розробники все ще можуть покладатися на нього для аналізу PDF-файлів у Python для отримання тексту для аналізу даних.

Бібліотека Python PDF Parser з відкритим кодом

Безкоштовна бібліотека Python із відкритим вихідним кодом для аналізу PDF-файлів і вилучення тексту з інформацією про форматування.

Що таке pdfminer.six?

Статистика GitHub

Початок роботи з pdfminer.six

Linux

MacOS

вікна

Витягти текст із PDF-документа

Вихід

Витяг інформації про шрифт із PDF-документа

Вихід

Висновок

Подібні Продукти