Biblioteka Open Source Python PDF Parser

Wypróbuj tę darmową i otwartą bibliotekę Pythona do analizowania, odczytywania i wyodrębniania tekstu, obrazów, tabel i innej zawartości z dokumentów PDF.

Czym jest PyMuPDF?

PyMuPDF, znany również jako Fitz, to biblioteka Pythona typu open source, która zapewnia kompleksowy zestaw narzędzi do pracy z plikami PDF. Dzięki PyMuPDF użytkownicy mogą wydajnie wykonywać zadania, takie jak otwieranie plików PDF, wyodrębnianie tekstu, obrazów i tabel, manipulowanie właściwościami strony, takimi jak obrót i przycinanie, tworzenie nowych dokumentów PDF i konwertowanie stron PDF na obrazy.

PyMuPDF obsługuje szereg funkcji wymienionych poniżej:

Odczyt dokumentów PDF: PyMuPDF potrafi otwierać i odczytywać dokumenty PDF, umożliwiając dostęp do tekstu, obrazów i innej zawartości w nich zawartej.
Ekstrahowanie tekstu: Możesz wyodrębnić tekst z dokumentów PDF, łącznie z zawartością tekstową, czcionkami i informacjami o układzie.
Ekstrakcja obrazu: Możesz wyodrębnić obrazy z dokumentów PDF w różnych formatach, takich jak JPEG lub PNG.
Ekstrahowanie tabeli: Możesz również wyodrębnić tabele z dokumentów PDF.

W tej recenzji skupimy się przede wszystkim na funkcjach ekstrakcji i parsowania biblioteki. Aby uzyskać szczegółową ocenę funkcji dzielenia, scalania i zarządzania stronami, kliknij tutaj.

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z PyMuPDF

Potrzebujesz wersji Pythona 3.8.0 lub nowszej, aby zainstalować i używać PyMuPDF. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować PyMuPDF na swoim komputerze, używając pip i środowiska wirtualnego.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

macOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Okna


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Wyodrębnij tekst z pliku PDF

Bibliotekę PyMuPDF w Pythonie można wykorzystać do wyodrębnienia tekstu z dokumentu PDF i przeprowadzenia analizy tekstu, np. zliczania słów, stosując po prostu funkcje udostępnione w bibliotece, jak pokazano w poniższym kodzie:

Wyjście

Poniższy obraz pokazuje wyodrębniony tekst i liczbę słów w pliku PDF:

Wyodrębnij obrazy z pliku PDF

Możemy użyć biblioteki PyMuPDF do wyodrębnienia obrazów z dokumentu PDF w Pythonie. Poniższy fragment kodu otwiera określony plik PDF, wyodrębnia obrazy z pliku PDF i zapisuje je w bieżącym katalogu roboczym:

Wyjście

Poniżej znajduje się obraz PNG wyodrębniony z dokumentu PDF

Wyodrębnij tabele z pliku PDF

Możemy również użyć biblioteki PyMuPDF do przetworzenia dokumentu PDF i wyodrębnienia z niego tabel. Sprawdź poniższy fragment kodu, który otwiera określony plik PDF i wyodrębnia tabele z dokumentu PDF:

Wyjście

Poniższy zrzut ekranu przedstawia tabelę wyodrębnioną z dokumentu PDF:

Wstaw tekst do pliku PDF

Poniższy fragment kodu Pythona demonstruje użycie biblioteki PyMuPDF do wstawiania tekstu do pliku PDF i zapisywania zmodyfikowanego pliku PDF jako text.pdf:

Wyjście

Tekst wstawiony za pomocą powyższego kodu jest podświetlony w czerwonym polu poniżej:

Rozpoznawanie tekstu PDF za pomocą OCR z PyMuPDF

We will perform OCR on the PDF file containing the following image:

Wyjście

Poniższy obraz pokazuje tekst wyodrębniony z obrazu znajdującego się w dostarczonym pliku PDF:

Wniosek

Podsumowując, PyMuPDF to profesjonalne narzędzie z kilkoma wyraźnymi mocnymi i słabymi stronami. Świetnie nadaje się do zadań takich jak OCR i ekstrakcja tekstu, co czyni go cennym do obsługi tekstu w plikach PDF.

Jednak nie jest tak dobry w wyodrębnianiu tabel z plików PDF, szczególnie gdy pliki PDF mają złożoną strukturę lub większą liczbę stron, co może być wadą dla niektórych użytkowników. Ponadto może wymagać dodatkowych bibliotek, takich jak pliki danych języka OCR Pandas i Tesseract w pewnych sytuacjach, co zwiększa złożoność jego użycia. Pomimo tych ograniczeń PyMuPDF pozostaje solidnym wyborem do pracy z tekstem w plikach PDF.

Biblioteka Open Source Python PDF Parser

Wypróbuj tę darmową i otwartą bibliotekę Pythona do analizowania, odczytywania i wyodrębniania tekstu, obrazów, tabel i innej zawartości z dokumentów PDF.

Czym jest PyMuPDF?

Statystyki GitHuba

Pierwsze kroki z PyMuPDF

Linux

macOS

Okna

Wyodrębnij tekst z pliku PDF

Wyjście

Wyodrębnij obrazy z pliku PDF

Wyjście

Wyodrębnij tabele z pliku PDF

Wyjście

Wstaw tekst do pliku PDF

Wyjście

Rozpoznawanie tekstu PDF za pomocą OCR z PyMuPDF

Wyjście

Wniosek

Podobne Produkty