1. Produkty
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Biblioteka analizatora składni plików PDF w języku Python typu open source

Bezpłatna biblioteka Pythona o otwartym kodzie źródłowym do analizowania plików PDF i wyodrębniania tekstu z informacjami o formatowaniu.

Co to jest pdfminer.six?

Pdfminer.six to biblioteka języka Python o otwartym kodzie źródłowym i zestaw narzędzi do wyodrębniania danych z dokumentów PDF. Możesz analizować dokumenty PDF i wyodrębniać tekst, spis treści i oznaczone treści itp. z plików PDF w celu analizy danych.

Oto krótka lista jego funkcji analizowania:

  • Wyodrębnianie tekstu: wyodrębniaj treść tekstową z dokumentów PDF, łącznie z informacjami o układzie i formatowaniu, takimi jak kolor tekstu, czcionka i lokalizacja itp.
  • Wyodrębnianie informacji o czcionkach: wyodrębnianie informacji o czcionkach używanych w dokumentach PDF.
GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z pdfminer.six

Aby zainstalować i używać pypdf, potrzebujesz języka Python w wersji 3.6.0 lub nowszej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze za pomocą pip i środowisko wirtualne.

Linuksa


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

System operacyjny Mac


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Okna


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Wyodrębnij tekst z dokumentu PDF

Możesz użyć biblioteki pdfminer.six w Pythonie, aby wyodrębnić tekst z dokumentu PDF za pomocą funkcji extract_text, jak pokazano w poniższym fragmencie kodu:

Poniższy zrzut ekranu przedstawia tekst wyodrębniony z dokumentu PDF:

Wyodrębnij informacje o czcionce z dokumentu PDF

Możemy również wyodrębnić informacje o czcionkach używanych w dokumencie PDF, takie jak nazwa czcionki i rozmiar czcionki, przeglądając elementy układu każdej strony w pliku PDF. Na przykład sprawdź poniższy fragment kodu:

Poniższy zrzut ekranu przedstawia informacje o czcionce pobrane z dokumentu PDF:

Wniosek

Podsumowując, pdfminer.six ma możliwości wyodrębniania tekstu i innych informacji z dokumentów PDF, ale brakuje mu takich funkcji, jak wyodrębnianie obrazów i tabel z plików PDF.

Należy zauważyć, że biblioteka pdfminer.six obsługuje wyodrębnianie stron PDF jako obrazów, ale różni się od wyodrębniania obrazów osadzonych w dokumentach PDF, które nie są obsługiwane przez pdfminer.six. Jednak programiści nadal mogą na nim polegać przy analizowaniu plików PDF w Pythonie w celu wyodrębnienia tekstu na potrzeby analizy danych.

Podobne Produkty

 Polish