Biblioteka analizatora składni plików PDF w języku Python typu open source
Bezpłatna biblioteka Pythona o otwartym kodzie źródłowym do analizowania plików PDF i wyodrębniania tekstu z informacjami o formatowaniu.
Co to jest pdfminer.six?
Pdfminer.six to biblioteka języka Python o otwartym kodzie źródłowym i zestaw narzędzi do wyodrębniania danych z dokumentów PDF. Możesz analizować dokumenty PDF i wyodrębniać tekst, spis treści i oznaczone treści itp. z plików PDF w celu analizy danych.
Oto krótka lista jego funkcji analizowania:
- Wyodrębnianie tekstu: wyodrębniaj treść tekstową z dokumentów PDF, łącznie z informacjami o układzie i formatowaniu, takimi jak kolor tekstu, czcionka i lokalizacja itp.
- Wyodrębnianie informacji o czcionkach: wyodrębnianie informacji o czcionkach używanych w dokumentach PDF.
Pierwsze kroki z pdfminer.six
Aby zainstalować i używać pypdf, potrzebujesz języka Python w wersji 3.6.0 lub nowszej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze za pomocą pip i środowisko wirtualne.
Linuksa
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
System operacyjny Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Wyodrębnij tekst z dokumentu PDF
Możesz użyć biblioteki pdfminer.six w Pythonie, aby wyodrębnić tekst z dokumentu PDF za pomocą funkcji extract_text, jak pokazano w poniższym fragmencie kodu:
Poniższy zrzut ekranu przedstawia tekst wyodrębniony z dokumentu PDF:
Wyodrębnij informacje o czcionce z dokumentu PDF
Możemy również wyodrębnić informacje o czcionkach używanych w dokumencie PDF, takie jak nazwa czcionki i rozmiar czcionki, przeglądając elementy układu każdej strony w pliku PDF. Na przykład sprawdź poniższy fragment kodu:
Poniższy zrzut ekranu przedstawia informacje o czcionce pobrane z dokumentu PDF:
Wniosek
Podsumowując, pdfminer.six ma możliwości wyodrębniania tekstu i innych informacji z dokumentów PDF, ale brakuje mu takich funkcji, jak wyodrębnianie obrazów i tabel z plików PDF.
Należy zauważyć, że biblioteka pdfminer.six obsługuje wyodrębnianie stron PDF jako obrazów, ale różni się od wyodrębniania obrazów osadzonych w dokumentach PDF, które nie są obsługiwane przez pdfminer.six. Jednak programiści nadal mogą na nim polegać przy analizowaniu plików PDF w Pythonie w celu wyodrębnienia tekstu na potrzeby analizy danych.