Biblioteka adnotacji PDF w języku Python typu open source
Wypróbuj tę bezpłatną i otwartą bibliotekę Pythona do dodawania i wyodrębniania adnotacji z dokumentów PDF.
Co to jest pypdf?
Pypdf to bezpłatna biblioteka Pythona o otwartym kodzie źródłowym, znana z różnorodnego zestawu funkcji do obsługi dokumentów PDF w środowisku Pythona. To narzędzie jest przydatne do różnych manipulacji plikami PDF, ale w tej recenzji skupimy się na jego funkcjach związanych z adnotacjami.
Godne uwagi funkcje pypdf związane z adnotacjami obejmują:
- Dodawanie adnotacji kształtów: możemy rysować kształty, takie jak linie, prostokąty, elipsy i wielokąty itp., w określonych obszarach stron PDF jako adnotacje.
- Dodawanie adnotacji tekstowych: możemy dodawać adnotacje tekstowe do określonych pozycji stron PDF.
- Dodawanie adnotacji do linków: Do dokumentów PDF można także dodawać adnotacje do linków (np. hiperłącze).
- Wyodrębnianie adnotacji: możemy iterować i wyodrębniać informacje o wszystkich adnotacjach w dokumencie PDF za pomocą biblioteki pypdf.
Pierwsze kroki z pypdf
Aby zainstalować i używać pypdf, potrzebujesz języka Python w wersji 3.6.0 lub nowszej. Zatem najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze za pomocą pip i środowisko wirtualne.
Linuksa
python3 -m venv venv
source venv/bin/activate
pip install pypdf
System operacyjny Mac
python -m venv venv
source venv/bin/activate
pip install pypdf
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Dodaj adnotację prostokątną do pliku PDF
Możemy dodawać prostokątne adnotacje do dokumentów PDF za pomocą biblioteki pypdf. Do zdefiniowania prostokąta użyjemy klasy Rectangle modułu pypdf.annotations z biblioteki pypdf. Następnie użyjemy metody add_annotations klasy PDFWriter, aby dodać prostokątną adnotację do pliku PDF.
Sprawdź poniższy fragment kodu, aby poznać szczegóły:
Na poniższym zrzucie ekranu widać, że prostokąt został dodany do adnotacji słowa Open Source:
Dodaj adnotację tekstową do pliku PDF
Adnotacje tekstowe tworzymy za pomocą klasy Text z modułu pypdf.annotations biblioteki pypdf. Następnie możemy użyć metody add_annotations klasy PDFWriter z biblioteki pypdf, aby dodać adnotację do pliku PDF. Adnotacja tekstowa jest dodawana w postaci ikony, która rozwija się i wyświetla tekst po kliknięciu ikony. Sprawdź poniższy fragment kodu, aby poznać szczegóły:
Jak widać na poniższym zrzucie ekranu, powyższy kod dodaje do pliku PDF ikonę w określonej pozycji, która wyświetla adnotację tekstową po kliknięciu ikony:
Dodaj adnotację łącza do pliku PDF
Adnotacje linków tworzone są przy użyciu klasy Link z modułu pypdf.annotations. Jednak problem z adnotacją linku polega na tym, że po prostu dodaje link, ale nie jest on widoczny. Aby rozwiązać ten problem, dołączymy prostokąt za pomocą klasy Rectangle z modułu pypdf.annotations, jak wyjaśniliśmy wcześniej. W ten sposób użytkownik może wizualnie zidentyfikować lokalizację, w której dodano adnotację o linku. Sprawdź poniższy fragment kodu, aby lepiej zrozumieć:
Jak widać na wynikach, prostokąt służy jako obszar, który po kliknięciu przekierowuje użytkownika do określonego łącza.
Wyodrębnij adnotacje z pliku PDF
Możemy wyodrębnić adnotacje z pliku PDF za pomocą biblioteki pypdf. Przeglądamy wszystkie adnotacje na stronach PDF, a następnie używamy metody get_object, aby uzyskać obiekt adnotacji. Następnie wyodrębniamy odpowiednie informacje z obiektu. Sprawdź poniższy fragment kodu, aby poznać szczegóły:
Jak widać na poniższym zrzucie ekranu, program zwrócił typ adnotacji i współrzędne adnotacji w dokumencie PDF:
Wniosek
Pypdf umożliwia programistom Pythona dodawanie różnych typów adnotacji do plików PDF i dostęp do niezbędnych informacji o adnotacjach, takich jak ich typ i lokalizacja, co czyni go praktycznym wyborem do zadań wymagających dodawania adnotacji i wyodrębniania danych o adnotacjach.