Biblioteka metadanych Python Open Source dla dokumentów PDF
Darmowa i otwartoźródłowa biblioteka języka Python do odczytu, edycji i aktualizacji metadanych plików PDF.
Czym jest PikePDF dla Pythona?
PikePDF to nowoczesna biblioteka Pythona dostosowana do bezproblemowej manipulacji plikami PDF, z potężnymi możliwościami pracy specjalnie z metadanymi. Zbudowana na solidnej bibliotece QPDF, PikePDF pozwala deweloperom na łatwe dodawanie, edytowanie i usuwanie metadanych z plików PDF, co czyni ją niezbędnym narzędziem do organizowania i wzbogacania informacji o dokumentach. Niezależnie od tego, czy musisz zaktualizować tytuły, autorów, pola tematyczne czy niestandardowe wpisy metadanych, PikePDF zapewnia Pythonic i intuicyjny interfejs API do zarządzania tymi szczegółami programowo. Obsługuje również obsługę osadzonych metadanych w celu ulepszonej klasyfikacji dokumentów i możliwości wyszukiwania, zapewniając zgodność z przepływami pracy, które w dużym stopniu opierają się na szczegółowych opisach dokumentów. Dzięki skupieniu na niezawodności i wydajności, PikePDF idealnie nadaje się do automatyzacji zadań zarządzania metadanymi w systemach przetwarzania dokumentów lub ulepszania przepływów pracy PDF opartych na metadanych.
Funkcje API PikePDF
PikePDF API for Python has rich set of features for working with the metadata of the PDF documents. Some of its features are as listed below.- Manipulowanie plikami PDF: scalanie, dzielenie, obracanie i zmiana kolejności stron w plikach PDF.
- Obsługa metadanych: dodawaj, edytuj lub usuwaj metadane w celu ulepszenia organizacji i przejrzystości informacji w plikach PDF.
- Szyfrowanie i bezpieczeństwo: szyfruj pliki PDF za pomocą haseł, odblokowuj zabezpieczone pliki PDF i zarządzaj ustawieniami zabezpieczeń.
- Napraw uszkodzone pliki: wykrywaj i naprawiaj problemy w uszkodzonych lub zniekształconych dokumentach PDF.
- Konwersja PDF/A: konwertuj pliki PDF do formatu PDF/A w celu długoterminowej archiwizacji i zachowania zgodności.
- Obsługa osadzonych czcionek: obsługa osadzonych czcionek w celu zapewnienia spójności i zgodności tekstu.
- Zorientowany na wydajność: zoptymalizowany pod kątem szybkich i niezawodnych operacji na dużych lub złożonych plikach PDF.
- Na podstawie QPDF: wykorzystuje potężną bibliotekę QPDF do zaawansowanej obróbki plików PDF.
- Open Source: Oprogramowanie bezpłatne i aktywnie utrzymywane przez społeczność programistów.
Zalety korzystania z API PikePDF
- Zarządzanie metadanymi: Łatwe dodawanie, edytowanie i usuwanie metadanych w celu usprawnienia organizacji i wyszukiwania plików PDF.
- Obsługa formatu PDF/A: konwertuj pliki PDF do formatów archiwalnych, zachowując lub aktualizując metadane.
- Radzenie sobie z uszkodzeniami: naprawiaj i przywracaj uszkodzone pliki PDF bez utraty metadanych.
- Szyfrowanie i bezpieczeństwo: zarządzaj ochroną haseł i szyfrowaniem, zachowując integralność metadanych.
- Niestandardowe metadane: Dodaj pola niestandardowe, aby dostosować metadane PDF do konkretnych przepływów pracy lub wymagań biznesowych.
- Wysoka wydajność: zoptymalizowano pod kątem szybkiego i wydajnego przetwarzania dużych i złożonych plików PDF.
- Open Source: bezpłatne i aktywnie utrzymywane, oferujące niezawodne i ekonomiczne rozwiązanie.
- Na podstawie QPDF: wykorzystuje zaawansowane funkcje QPDF do zaawansowanych operacji na plikach PDF i metadanych.
Wprowadzenie do PikePDF API dla Pythona
Używanie PikePDF w aplikacjach Python wymaga zainstalowania wersji Python 3.9+ w systemie. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować Hachoir API na swoim komputerze, używając pip i środowiska wirtualnego.
pip install pikepdf
Praca z API PikePDF dla Pythona — przykłady
Możesz użyć PikePDF do odczytu, zapisu i aktualizacji informacji metadanych plików PDF. API zapewnia łatwe w użyciu metody i przykłady do pracy z plikami PDF z poziomu aplikacji Python.
Odczyt informacji o metadanych pliku za pomocą interfejsu API PikePDF dla języka Python
Odczytywanie informacji metadanych z pliku PDF za pomocą pliku PikePDF jest łatwe. Możesz użyć następującego przykładowego kodu, aby odczytać informacje metadanych z dowolnego dokumentu PDF.
Wyjście
Po wykonaniu tego kodu wynik będzie mniej więcej podobny do następującego:
PDF Metadata:
/Title: Sample PDF Document
/Author: John Doe
/Subject: Example Usage
/Producer: Adobe PDF Library
/CreationDate: D:20241226093000Z
Jeśli w pliku nie ma metadanych, dane wyjściowe będą puste.
Zapisz informacje metadanych do pliku PDF za pomocą interfejsu API PikePDF dla języka Python
PikePDF może zapisywać lub aktualizować metadane pliku PDF. Biblioteka pozwala modyfikować istniejące pola metadanych lub dodawać nowe. Oto przykład pokazujący, jak aktualizować metadane w pliku PDF:
Oto kilka standardowych pól, które możesz aktualizować:
Title: The title of the document.
Author: The author of the document.
Subject: The subject or topic of the document.
Keywords: Keywords associated with the document for search purposes.
Creator: The application that created the document.
Producer: The software that generated the PDF.
CreationDate: The date the document was created.
ModDate: The date the document was last modified.