1. Produkty
  2.   Parser
  3.   Python
  4.   pdfminer.six
 
  

Biblioteka Open Source Python PDF Parser

Darmowa i otwartoźródłowa biblioteka języka Python umożliwiająca analizowanie plików PDF i wyodrębnianie tekstu wraz z informacjami o formatowaniu.

Czym jest pdfminer.six?

Pdfminer.six to biblioteka Pythona typu open source i zestaw narzędzi do ekstrakcji danych z dokumentów PDF. Możesz analizować dokumenty PDF i wyodrębniać tekst, spis treści i oznaczone treści itp. z plików PDF w celu analizy danych.

Oto krótka lista funkcji parsowania:

  • Ekstrakcja tekstu: Wyodrębnij zawartość tekstową z dokumentów PDF, łącznie z informacjami o układzie i formatowaniu, np. kolorem, czcionką i lokalizacją tekstu itp.
  • Ekstrahowanie informacji o czcionkach: wyodrębnij informacje o czcionkach używanych w dokumentach PDF.
GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z pdfminer.six

Potrzebujesz wersji Pythona 3.6.0 lub nowszej, aby zainstalować i używać pypdf. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze, używając pip i środowiska wirtualnego.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

macOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Okna


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Wyodrębnij tekst z dokumentu PDF

Możesz użyć biblioteki pdfminer.six w Pythonie, aby wyodrębnić tekst z dokumentu PDF, korzystając z funkcji extract_text, jak pokazano w poniższym fragmencie kodu:

Wyjście

Poniższy zrzut ekranu pokazuje tekst wyodrębniony z dokumentu PDF:

Wyodrębnij informacje o czcionce z dokumentu PDF

Możemy również wyodrębnić informacje o czcionkach używanych w dokumencie PDF, takie jak nazwa czcionki i rozmiar czcionki, iterując przez elementy układu każdej strony w pliku PDF. Na przykład sprawdź poniższy fragment kodu:

Wyjście

Poniższy zrzut ekranu pokazuje informacje o czcionce wyodrębnione z dokumentu PDF:

Wniosek

Podsumowując, pdfminer.six umożliwia wyodrębnianie tekstu i innych informacji z dokumentów PDF, ale brakuje mu takich funkcji jak wyodrębnianie obrazów i tabel z plików PDF.

Ważne jest, aby pamiętać, że biblioteka pdfminer.six obsługuje wyodrębnianie stron PDF jako obrazów, ale różni się od wyodrębniania obrazów osadzonych w dokumentach PDF, co nie jest obsługiwane przez pdfminer.six. Jednak programiści nadal mogą polegać na niej przy parsowaniu plików PDF w Pythonie w celu wyodrębnienia tekstu na potrzeby analizy danych.

Podobne Produkty

 Polish