1. Produkty
  2.   Parser
  3.   Python
  4.   PyMuPDF
 
  

Biblioteka analizatora składni plików PDF w języku Python typu open source

Wypróbuj tę bezpłatną i otwartą bibliotekę języka Python do analizowania, czytania i wyodrębniania tekstu, obrazów, tabel i innej zawartości z dokumentów PDF.

Co to jest PyMuPDF?

PyMuPDF, znany również jako Fitz, to biblioteka Pythona typu open source, która zapewnia kompleksowy zestaw narzędzi do pracy z plikami PDF. Dzięki PyMuPDF użytkownicy mogą wydajnie wykonywać zadania, takie jak otwieranie plików PDF, wyodrębnianie tekstu, obrazów i tabel, manipulowanie właściwościami strony, takimi jak obracanie i przycinanie, tworzenie nowych dokumentów PDF i konwertowanie stron PDF na obrazy.

PyMuPDF obsługuje kilka funkcji wymienionych poniżej:

  • Czytanie dokumentów PDF: PyMuPDF może otwierać i czytać dokumenty PDF, umożliwiając dostęp do tekstu, obrazów i innej zawartości w nich zawartej.
  • Wyodrębnianie tekstu: możesz wyodrębniać tekst z dokumentów PDF, w tym zawartość tekstową, czcionki i informacje o układzie.
  • Wyodrębnianie obrazów: możesz wyodrębniać obrazy z dokumentów PDF w różnych formatach, takich jak JPEG lub PNG.
  • Wyodrębnianie tabel: możesz także wyodrębniać tabele z dokumentów PDF.

W tej recenzji skupimy się przede wszystkim na funkcjach wyodrębniania i analizowania biblioteki. Aby uzyskać szczegółową ocenę funkcji dzielenia, łączenia i zarządzania stronami, kliknij tutaj.

GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z PyMuPDF

Aby zainstalować i używać PyMuPDF, potrzebujesz Pythona w wersji 3.8.0 lub wyższej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować PyMuPDF na swoim komputerze za pomocą pip i środowisko wirtualne.

Linuksa


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

System operacyjny Mac


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Okna


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Wyodrębnij tekst z pliku PDF

Możesz użyć biblioteki PyMuPDF w Pythonie, aby wyodrębnić tekst z dokumentu PDF i przeprowadzić analizę tekstu, na przykład liczenie słów, po prostu korzystając z funkcji dostępnych w bibliotece, jak pokazano w poniższym kodzie:

Poniższy obraz pokazuje wyodrębniony tekst i liczbę słów w pliku PDF:

Wyodrębnij obrazy z pliku PDF

Możemy użyć biblioteki PyMuPDF do wyodrębnienia obrazów z dokumentu PDF w Pythonie. Poniższy fragment kodu otwiera określony plik PDF, wyodrębnia obrazy z pliku PDF i zapisuje je w bieżącym katalogu roboczym:

Poniżej znajduje się obraz PNG wyodrębniony z dokumentu PDF

Wyodrębnij tabele z pliku PDF

Bibliotekę PyMuPDF możemy także wykorzystać do przetworzenia dokumentu PDF i wyodrębnienia z niego tabel. Sprawdź poniższy fragment kodu, który otwiera określony plik PDF i wyodrębnia tabele z dokumentu PDF:

Poniższy zrzut ekranu przedstawia tabelę wyodrębnioną z dokumentu PDF:

Wstaw tekst do pliku PDF

Poniższy fragment kodu Pythona demonstruje użycie biblioteki PyMuPDF do wstawiania tekstu do pliku PDF i zapisywania zmodyfikowanego pliku PDF jako text.pdf:

Tekst wstawiony przy użyciu powyższego kodu jest podświetlony w czerwonym polu podanym poniżej:

Rozpoznawanie tekstu PDF za pomocą OCR z PyMuPDF

We will perform OCR on the PDF file containing the following image:

Poniższy obraz przedstawia tekst wyodrębniony z obrazu znajdującego się w dostarczonym pliku PDF:

Wniosek

Podsumowując, PyMuPDF to profesjonalne narzędzie z pewnymi wyraźnymi mocnymi i słabymi stronami. Świetnie nadaje się do zadań takich jak OCR i wyodrębnianie tekstu, co czyni go przydatnym do obsługi tekstu w plikach PDF.

Jednak wyodrębnianie tabel z plików PDF nie jest zbyt dobre, szczególnie gdy pliki PDF mają złożoną strukturę lub większą liczbę stron, co może być wadą dla niektórych użytkowników. Ponadto w niektórych sytuacjach może wymagać dodatkowych bibliotek, takich jak pliki danych języka OCR Pandas i Tesseract, co komplikuje jego użycie. Pomimo tych ograniczeń PyMuPDF pozostaje solidnym wyborem do pracy z tekstem w plikach PDF.

Podobne Produkty

 Polish