Biblioteka adnotacji PDF w języku Python Open Source
Wypróbuj tę darmową i otwartą bibliotekę Pythona do dodawania i wyodrębniania adnotacji z dokumentów PDF.
Czym jest pypdf?
Pypdf to darmowa i open-source'owa biblioteka Pythona, znana z różnorodnego zestawu funkcji do obsługi dokumentów PDF w środowisku Pythona. To narzędzie przydaje się do różnych manipulacji PDF-ami, ale w tej recenzji skupimy się na jego funkcjach związanych z adnotacjami.
Do najważniejszych cech języka pypdf związanych z adnotacjami należą:
- Dodawanie adnotacji kształtów: Na określonych obszarach stron PDF możemy rysować kształty takie jak linie, prostokąty, elipsy i wielokąty itp. jako adnotacje.
- Dodawanie adnotacji tekstowych: Możemy dodawać adnotacje tekstowe w określonych miejscach stron pliku PDF.
- Dodawanie adnotacji do łączy: Do dokumentów PDF można również dodawać adnotacje do łączy (np. hiperłącza).
- Ekstrahowanie adnotacji: Możemy iterować i wyodrębniać informacje o wszystkich adnotacjach w dokumencie PDF, korzystając z biblioteki pypdf.
Pierwsze kroki z pypdf
Potrzebujesz wersji Pythona 3.6.0 lub nowszej, aby zainstalować i używać pypdf. Więc najpierw zainstaluj Python, a następnie użyj poniższych poleceń, aby zainstalować pypdf na swoim komputerze, używając pip i środowiska wirtualnego.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
macOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Okna
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Dodaj adnotację prostokątną do pliku PDF
Możemy dodać adnotacje prostokątne do dokumentów PDF za pomocą biblioteki pypdf. Użyjemy klasy Rectangle modułu pypdf.annotations z biblioteki pypdf, aby zdefiniować prostokąt. Następnie użyjemy metody add_annotations klasy PDFWriter, aby dodać adnotację prostokątną do pliku PDF.
Szczegóły znajdziesz w poniższym fragmencie kodu:
Wyjście
Na poniższym zrzucie ekranu widać, że prostokąt został dodany w celu oznaczenia słowa Open Source:
Dodaj adnotację tekstową do pliku PDF
Tworzymy adnotacje tekstowe za pomocą klasy Text z modułu pypdf.annotations biblioteki pypdf. Następnie możemy użyć metody add_annotations klasy PDFWriter z biblioteki pypdf, aby dodać adnotację do pliku PDF. Adnotacja tekstowa jest dodawana jako ikona, która rozwija się i pokazuje tekst po kliknięciu ikony. Sprawdź poniższy fragment kodu, aby uzyskać szczegóły:
Wyjście
Jak widać na poniższym screencast, powyższy kod dodaje ikonę do pliku PDF w określonym miejscu, która po kliknięciu wyświetla adnotację tekstową:
Dodaj adnotację linku do pliku PDF
Adnotacje linków są tworzone przy użyciu klasy Link z modułu pypdf.annotations. Jednak problem z adnotacją linku polega na tym, że po prostu dodaje link, ale nie jest on widoczny. Aby rozwiązać ten problem, włączymy prostokąt przy użyciu klasy Rectangle z modułu pypdf.annotations, jak wyjaśniliśmy wcześniej. W ten sposób użytkownik może wizualnie zidentyfikować lokalizację, w której dodano adnotację linku. Sprawdź poniższy fragment kodu, aby lepiej zrozumieć:
Wyjście
Jak widać na wyjściu, prostokąt stanowi obszar, który po kliknięciu przekierowuje użytkownika do określonego linku.
Wyodrębnij adnotacje z pliku PDF
Możemy wyodrębnić adnotacje z pliku PDF za pomocą biblioteki pypdf. Przechodzimy przez wszystkie adnotacje na stronach PDF, a następnie używamy metody get_object, aby uzyskać obiekt adnotacji. Następnie wyodrębniamy istotne informacje z obiektu. Sprawdź poniższy fragment kodu, aby uzyskać szczegóły:
Wyjście
Jak widać na poniższym zrzucie ekranu, program zwrócił typ adnotacji i współrzędne adnotacji w dokumencie PDF:
Wniosek
Pypdf umożliwia programistom Pythona dodawanie różnych typów adnotacji do plików PDF oraz dostęp do podstawowych informacji o adnotacjach, takich jak ich typ i lokalizacja, co czyni to narzędzie praktycznym wyborem w przypadku zadań wymagających dodawania adnotacji i wyodrębniania danych o adnotacjach.