1. Produkty
  2.   Metadane
  3.   Python
  4.   PyMuPDF

PyMuPDF

 
 

Biblioteka języka Python typu open source do zarządzania metadanymi PDF

Wypróbuj PyMuPDF, bezpłatną i otwartą bibliotekę Pythona, aby uzyskać dostęp do metadanych dokumentów PDF i modyfikować je.

Co to jest PyMuPDF?

PyMuPDF, znany również jako Fitz, to biblioteka Pythona typu open source, która oferuje wiele funkcji, takich jak parsowanie plików PDF, dzielenie i łączenie plików PDF itp., ale na tej stronie omówimy tylko to, w jaki sposób programiści Pythona mogą używać biblioteki PyMuPDF do obsługi zadań związanych z metadanymi PDF, takich jak:

  • Odczyt metadanych PDF: PyMuPDF obsługuje dostęp do metadanych dokumentów PDF zawierających informacje takie jak autor, tytuł, temat i data utworzenia itp.
  • Modyfikuj metadane PDF: biblioteka umożliwia także modyfikowanie metadanych dokumentów PDF.
  • Odczyt metadanych XML: dokumenty PDF zawierają także metadane XML, które nie ograniczają się do standardowych właściwości dokumentu, takich jak autor, tytuł itp. i mogą zawierać dodatkowe metadane. Dzięki PyMuPDF programiści mogą go również przeczytać.
  • Zmień metadane XML: programiści mogą także zmieniać metadane XML plików PDF przy użyciu biblioteki PyMuPDF.
GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Pierwsze kroki z PyMuPDF

Aby zainstalować i używać PyMuPDF, potrzebujesz Pythona w wersji 3.8.0 lub wyższej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować PyMuPDF na swoim komputerze za pomocą pip i środowisko wirtualne.

Linuksa


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

System operacyjny Mac


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Okna


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

Przeczytaj metadane PDF

Metadane pliku PDF możemy odczytać za pomocą elementu metadata biblioteki PyMuPDF, który zawiera pełną zawartość metadanych dokumentu. Poniższy fragment kodu pokazuje, jak uzyskać metadane pliku PDF od członka metadanych:

Poniższy zrzut ekranu przedstawia pobrane metadane z pliku PDF przy użyciu PyMuPDF:

Edytuj metadane PDF

Metadane plików PDF możemy edytować za pomocą biblioteki PyMuPDF, przekazując słownik zawierający pola, które chcemy zmienić wraz z ich nowymi wartościami, do metody set_metadata, jak pokazano w poniższym fragmencie kodu:

Czytaj metadane XML plików PDF

Możemy pobrać metadane XML pliku PDF za pomocą biblioteki PyMuPDF. Używamy metody get_xml_metadata, która zwraca całe metadane XML, jak pokazano w poniższym fragmencie kodu:

Poniższy zrzut ekranu przedstawia metadane XML pobrane z pliku PDF przy użyciu PyMuPDF:

Zmień metadane XML plików PDF

Możemy ustawić lub zmienić metadane XML pliku PDF za pomocą metody set_xml_metadata biblioteki PyMuPDF. Nie jest to tak proste, jak zastąpienie metadanych na poziomie dokumentu, ponieważ set_xml_metadata zaakceptuje dowolny ciąg i zastąpi pełne metadane XML przekazanym do niego ciągiem znaków.

Aby uniknąć niezamierzonego usunięcia jakichkolwiek metadanych, najpierw pobieramy pełne metadane XML w postaci ciągu znaków za pomocą metody get_xml_metadata, a następnie używamy metody replace ciągu znaków w celu zastąpienia żądanego informacji, przekazujemy cały XML ze zmienionymi polami do metody set_xml_metadata, która zmienia całe metadane XML pliku PDF. Sprawdź poniższy fragment kodu, aby poznać szczegóły:

Wniosek

Podsumowując, PyMuPDF to świetne narzędzie do zadań związanych z manipulacją metadanymi. Możemy łatwo odzyskać i zmienić informacje o metadanych plików PDF. Jednak zauważalną słabością jest metoda set_xml_metadata. Ta metoda akceptuje dowolny przekazany do niej ciąg znaków i zastępuje nim poprzedni kod XML, co może spowodować niezamierzoną utratę informacji. Aby uniknąć tego problemu, programiści muszą zaimplementować swoją logikę, aby zapewnić prawidłowe modyfikacje metadanych XML.

Podobne Produkty

 Polish