Biblioteka analizatora składni plików PDF w języku Python typu open source
Wypróbuj tę bezpłatną i otwartą bibliotekę języka Python do analizowania, czytania i wyodrębniania tekstu, obrazów, tabel i innej zawartości z dokumentów PDF.
Co to jest PyMuPDF?
PyMuPDF, znany również jako Fitz, to biblioteka Pythona typu open source, która zapewnia kompleksowy zestaw narzędzi do pracy z plikami PDF. Dzięki PyMuPDF użytkownicy mogą wydajnie wykonywać zadania, takie jak otwieranie plików PDF, wyodrębnianie tekstu, obrazów i tabel, manipulowanie właściwościami strony, takimi jak obracanie i przycinanie, tworzenie nowych dokumentów PDF i konwertowanie stron PDF na obrazy.
PyMuPDF obsługuje kilka funkcji wymienionych poniżej:
- Czytanie dokumentów PDF: PyMuPDF może otwierać i czytać dokumenty PDF, umożliwiając dostęp do tekstu, obrazów i innej zawartości w nich zawartej.
- Wyodrębnianie tekstu: możesz wyodrębniać tekst z dokumentów PDF, w tym zawartość tekstową, czcionki i informacje o układzie.
- Wyodrębnianie obrazów: możesz wyodrębniać obrazy z dokumentów PDF w różnych formatach, takich jak JPEG lub PNG.
- Wyodrębnianie tabel: możesz także wyodrębniać tabele z dokumentów PDF.
W tej recenzji skupimy się przede wszystkim na funkcjach wyodrębniania i analizowania biblioteki. Aby uzyskać szczegółową ocenę funkcji dzielenia, łączenia i zarządzania stronami, kliknij tutaj.
Pierwsze kroki z PyMuPDF
Aby zainstalować i używać PyMuPDF, potrzebujesz Pythona w wersji 3.8.0 lub wyższej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować PyMuPDF na swoim komputerze za pomocą pip i środowisko wirtualne.
Linuksa
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
System operacyjny Mac
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Okna
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Wyodrębnij tekst z pliku PDF
Możesz użyć biblioteki PyMuPDF w Pythonie, aby wyodrębnić tekst z dokumentu PDF i przeprowadzić analizę tekstu, na przykład liczenie słów, po prostu korzystając z funkcji dostępnych w bibliotece, jak pokazano w poniższym kodzie:
Poniższy obraz pokazuje wyodrębniony tekst i liczbę słów w pliku PDF:
Wyodrębnij obrazy z pliku PDF
Możemy użyć biblioteki PyMuPDF do wyodrębnienia obrazów z dokumentu PDF w Pythonie. Poniższy fragment kodu otwiera określony plik PDF, wyodrębnia obrazy z pliku PDF i zapisuje je w bieżącym katalogu roboczym:
Poniżej znajduje się obraz PNG wyodrębniony z dokumentu PDF
Wyodrębnij tabele z pliku PDF
Bibliotekę PyMuPDF możemy także wykorzystać do przetworzenia dokumentu PDF i wyodrębnienia z niego tabel. Sprawdź poniższy fragment kodu, który otwiera określony plik PDF i wyodrębnia tabele z dokumentu PDF:
Poniższy zrzut ekranu przedstawia tabelę wyodrębnioną z dokumentu PDF:
Wstaw tekst do pliku PDF
Poniższy fragment kodu Pythona demonstruje użycie biblioteki PyMuPDF do wstawiania tekstu do pliku PDF i zapisywania zmodyfikowanego pliku PDF jako text.pdf:
Tekst wstawiony przy użyciu powyższego kodu jest podświetlony w czerwonym polu podanym poniżej:
Rozpoznawanie tekstu PDF za pomocą OCR z PyMuPDF
We will perform OCR on the PDF file containing the following image:Poniższy obraz przedstawia tekst wyodrębniony z obrazu znajdującego się w dostarczonym pliku PDF:
Wniosek
Podsumowując, PyMuPDF to profesjonalne narzędzie z pewnymi wyraźnymi mocnymi i słabymi stronami. Świetnie nadaje się do zadań takich jak OCR i wyodrębnianie tekstu, co czyni go przydatnym do obsługi tekstu w plikach PDF.
Jednak wyodrębnianie tabel z plików PDF nie jest zbyt dobre, szczególnie gdy pliki PDF mają złożoną strukturę lub większą liczbę stron, co może być wadą dla niektórych użytkowników. Ponadto w niektórych sytuacjach może wymagać dodatkowych bibliotek, takich jak pliki danych języka OCR Pandas i Tesseract, co komplikuje jego użycie. Pomimo tych ograniczeń PyMuPDF pozostaje solidnym wyborem do pracy z tekstem w plikach PDF.