Biblioteka Open Source Python PDF Parser
Wypróbuj tę darmową i otwartą bibliotekę Pythona do analizowania, odczytywania i wyodrębniania tekstu, obrazów, tabel i innej zawartości z dokumentów PDF.
Czym jest PyMuPDF?
PyMuPDF, znany również jako Fitz, to biblioteka Pythona typu open source, która zapewnia kompleksowy zestaw narzędzi do pracy z plikami PDF. Dzięki PyMuPDF użytkownicy mogą wydajnie wykonywać zadania, takie jak otwieranie plików PDF, wyodrębnianie tekstu, obrazów i tabel, manipulowanie właściwościami strony, takimi jak obrót i przycinanie, tworzenie nowych dokumentów PDF i konwertowanie stron PDF na obrazy.
PyMuPDF obsługuje szereg funkcji wymienionych poniżej:
- Odczyt dokumentów PDF: PyMuPDF potrafi otwierać i odczytywać dokumenty PDF, umożliwiając dostęp do tekstu, obrazów i innej zawartości w nich zawartej.
- Ekstrahowanie tekstu: Możesz wyodrębnić tekst z dokumentów PDF, łącznie z zawartością tekstową, czcionkami i informacjami o układzie.
- Ekstrakcja obrazu: Możesz wyodrębnić obrazy z dokumentów PDF w różnych formatach, takich jak JPEG lub PNG.
- Ekstrahowanie tabeli: Możesz również wyodrębnić tabele z dokumentów PDF.
W tej recenzji skupimy się przede wszystkim na funkcjach ekstrakcji i parsowania biblioteki. Aby uzyskać szczegółową ocenę funkcji dzielenia, scalania i zarządzania stronami, kliknij tutaj.
Pierwsze kroki z PyMuPDF
Potrzebujesz wersji Pythona 3.8.0 lub nowszej, aby zainstalować i używać PyMuPDF. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować PyMuPDF na swoim komputerze, używając pip i środowiska wirtualnego.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
macOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Okna
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Wyodrębnij tekst z pliku PDF
Bibliotekę PyMuPDF w Pythonie można wykorzystać do wyodrębnienia tekstu z dokumentu PDF i przeprowadzenia analizy tekstu, np. zliczania słów, stosując po prostu funkcje udostępnione w bibliotece, jak pokazano w poniższym kodzie:
Wyjście
Poniższy obraz pokazuje wyodrębniony tekst i liczbę słów w pliku PDF:
Wyodrębnij obrazy z pliku PDF
Możemy użyć biblioteki PyMuPDF do wyodrębnienia obrazów z dokumentu PDF w Pythonie. Poniższy fragment kodu otwiera określony plik PDF, wyodrębnia obrazy z pliku PDF i zapisuje je w bieżącym katalogu roboczym:
Wyjście
Poniżej znajduje się obraz PNG wyodrębniony z dokumentu PDF
Wyodrębnij tabele z pliku PDF
Możemy również użyć biblioteki PyMuPDF do przetworzenia dokumentu PDF i wyodrębnienia z niego tabel. Sprawdź poniższy fragment kodu, który otwiera określony plik PDF i wyodrębnia tabele z dokumentu PDF:
Wyjście
Poniższy zrzut ekranu przedstawia tabelę wyodrębnioną z dokumentu PDF:
Wstaw tekst do pliku PDF
Poniższy fragment kodu Pythona demonstruje użycie biblioteki PyMuPDF do wstawiania tekstu do pliku PDF i zapisywania zmodyfikowanego pliku PDF jako text.pdf:
Wyjście
Tekst wstawiony za pomocą powyższego kodu jest podświetlony w czerwonym polu poniżej:
Rozpoznawanie tekstu PDF za pomocą OCR z PyMuPDF
We will perform OCR on the PDF file containing the following image:Wyjście
Poniższy obraz pokazuje tekst wyodrębniony z obrazu znajdującego się w dostarczonym pliku PDF:
Wniosek
Podsumowując, PyMuPDF to profesjonalne narzędzie z kilkoma wyraźnymi mocnymi i słabymi stronami. Świetnie nadaje się do zadań takich jak OCR i ekstrakcja tekstu, co czyni go cennym do obsługi tekstu w plikach PDF.
Jednak nie jest tak dobry w wyodrębnianiu tabel z plików PDF, szczególnie gdy pliki PDF mają złożoną strukturę lub większą liczbę stron, co może być wadą dla niektórych użytkowników. Ponadto może wymagać dodatkowych bibliotek, takich jak pliki danych języka OCR Pandas i Tesseract w pewnych sytuacjach, co zwiększa złożoność jego użycia. Pomimo tych ograniczeń PyMuPDF pozostaje solidnym wyborem do pracy z tekstem w plikach PDF.