Bibliotecă Python PDF Parser Open Source

Bibliotecă Python gratuită și open source pentru a analiza PDF-uri și a extrage text cu informații de formatare.

Ce este pdfminer.six?

Pdfminer.six este o bibliotecă open source Python și un set de instrumente pentru extragerea datelor din documente PDF. Puteți analiza documente PDF și puteți extrage text, cuprins și conținut etichetat etc. din PDF-uri pentru analiza datelor.

Iată o listă scurtă a caracteristicilor sale de analizare:

Extragerea textului: extrageți conținutul textului din documentele PDF, inclusiv informații despre aspect și formatare, cum ar fi culoarea textului, fontul și locația etc.
Extragerea informațiilor despre font: extrageți informații despre fonturile utilizate în documentele PDF.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Noțiuni introductive cu pdfminer.six

Aveți nevoie de versiunea Python 3.6.0 sau mai mare pentru a instala și utiliza pypdf. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala pypdf pe computer folosind pip și mediu virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extrageți text din documentul PDF

Puteți utiliza biblioteca pdfminer.six din Python pentru a extrage text dintr-un document PDF utilizând funcția extract_text, așa cum se arată în fragmentul de cod de mai jos:

Următoarea captură de ecran arată textul extras din documentul PDF:

Extrageți informații despre font din documentul PDF

De asemenea, putem extrage informații despre fonturile utilizate în documentul PDF, cum ar fi numele fontului și dimensiunea fontului, iterând elementele de aspect ale fiecărei pagini din PDF. De exemplu, verificați fragmentul de cod de mai jos:

Următoarea captură de ecran arată informațiile despre font extrase din documentul PDF:

Concluzie

În concluzie, pdfminer.six are abilități de a extrage text și alte informații din documente PDF, dar îi lipsesc funcționalități precum extragerea de imagini și tabele din PDF-uri.

Este important să rețineți că biblioteca pdfminer.six acceptă extragerea paginilor PDF ca imagini, dar este diferită de extragerea imaginilor încorporate în documentele PDF, care nu este acceptată de pdfminer.six. Cu toate acestea, dezvoltatorii se pot baza în continuare pe acesta pentru analiza PDF-urilor în Python pentru a extrage text pentru nevoile lor de analiză a datelor.