Biblioteka Open Source Python PDF Parser
Darmowa i otwartoźródłowa biblioteka języka Python umożliwiająca analizowanie plików PDF i wyodrębnianie tekstu wraz z informacjami o formatowaniu.
Czym jest pdfminer.six?
Pdfminer.six to biblioteka Pythona typu open source i zestaw narzędzi do ekstrakcji danych z dokumentów PDF. Możesz analizować dokumenty PDF i wyodrębniać tekst, spis treści i oznaczone treści itp. z plików PDF w celu analizy danych.
Oto krótka lista funkcji parsowania:
- Ekstrakcja tekstu: Wyodrębnij zawartość tekstową z dokumentów PDF, łącznie z informacjami o układzie i formatowaniu, np. kolorem, czcionką i lokalizacją tekstu itp.
- Ekstrahowanie informacji o czcionkach: wyodrębnij informacje o czcionkach używanych w dokumentach PDF.
Pierwsze kroki z pdfminer.six
Potrzebujesz wersji Pythona 3.6.0 lub nowszej, aby zainstalować i używać pypdf. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze, używając pip i środowiska wirtualnego.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
macOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Wyodrębnij tekst z dokumentu PDF
Możesz użyć biblioteki pdfminer.six w Pythonie, aby wyodrębnić tekst z dokumentu PDF, korzystając z funkcji extract_text, jak pokazano w poniższym fragmencie kodu:
Wyjście
Poniższy zrzut ekranu pokazuje tekst wyodrębniony z dokumentu PDF:
Wyodrębnij informacje o czcionce z dokumentu PDF
Możemy również wyodrębnić informacje o czcionkach używanych w dokumencie PDF, takie jak nazwa czcionki i rozmiar czcionki, iterując przez elementy układu każdej strony w pliku PDF. Na przykład sprawdź poniższy fragment kodu:
Wyjście
Poniższy zrzut ekranu pokazuje informacje o czcionce wyodrębnione z dokumentu PDF:
Wniosek
Podsumowując, pdfminer.six umożliwia wyodrębnianie tekstu i innych informacji z dokumentów PDF, ale brakuje mu takich funkcji jak wyodrębnianie obrazów i tabel z plików PDF.
Ważne jest, aby pamiętać, że biblioteka pdfminer.six obsługuje wyodrębnianie stron PDF jako obrazów, ale różni się od wyodrębniania obrazów osadzonych w dokumentach PDF, co nie jest obsługiwane przez pdfminer.six. Jednak programiści nadal mogą polegać na niej przy parsowaniu plików PDF w Pythonie w celu wyodrębnienia tekstu na potrzeby analizy danych.