Open Source Python PDF Annotation Library
Prøv dette Free & Open Source Python-bibliotek til at tilføje og udtrække annoteringer fra PDF-dokumenter.
Hvad er pypdf?
Pypdf er et gratis og open source python-bibliotek kendt for dets mangfoldige sæt funktioner til håndtering af PDF-dokumenter i python-miljø. Dette værktøj er praktisk til forskellige PDF-manipulationer, men vi vil fokusere på dets annoteringsrelaterede funktioner i denne anmeldelse.
Bemærkelsesværdige funktioner i pypdf relateret til annoteringer inkluderer:
- Tilføjelse af formannoteringer: Vi kan tegne figurer som linjer, rektangler, ellipser og polygoner osv. på specifikke områder af PDF-sider som annoteringer.
- Tilføjelse af tekstanmærkninger: Vi kan tilføje tekstanmærkninger til bestemte positioner af PDF-sider.
- Tilføjelse af linkannoteringer: Det er også muligt at tilføje linkannoteringer (som et hyperlink) til PDF-dokumenter.
- Udtrækning af annoteringer: Vi kan gentage og udtrække information om alle annoteringer i et PDF-dokument ved hjælp af pypdf-biblioteket.
Kom godt i gang med pypdf
Du skal bruge Python version 3.6.0 eller nyere for at installere og bruge pypdf. Så installer først Python og brug derefter nedenstående kommandoer til at installere pypdf på din maskine ved hjælp af pip og virtuelt miljø a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Føj rektangelanmærkning til PDF
Vi kan tilføje rektangulære annotationer til PDF-dokumenter ved hjælp af pypdf-biblioteket. Vi vil bruge Rektangel-klassen i pypdf.annotations-modulet fra pypdf-biblioteket til at definere rektanglet. Derefter vil vi bruge add_annotations-metoden i PDFWriter-klassen til at tilføje rektangelannotering til PDF-filen.
Tjek nedenstående kodestykke for detaljer:
Produktion
I nedenstående skærmbillede kan du se, at rektangel er tilføjet for at kommentere Open Source-ord:
Tilføj tekstanmærkning til PDF
Vi opretter tekstanmærkninger ved hjælp af klassen Text fra pypdf.annotations-modulet i pypdf-biblioteket. Derefter kan vi bruge add_annotations-metoden for PDFWriter-klassen fra pypdf-biblioteket for at tilføje annotering til PDF-filen. Tekstanmærkningen tilføjes som et ikon, der udvides og viser teksten, når der klikkes på ikonet. Tjek nedenstående kodestykke for detaljer:
Produktion
Som vi kan se i nedenstående screencast, tilføjer ovenstående kode et ikon til PDF'en på den angivne position, som viser tekstanmærkning, når der klikkes på ikonet:
Tilføj linkanmærkning til PDF
Linkannoteringer oprettes ved hjælp af klassen Link fra modulet pypdf.annotations. Men problemet med linkannoteringen er, at den blot tilføjer linket, men det er ikke synligt. For at løse dette problem vil vi inkorporere et rektangel ved hjælp af klassen Rektangel fra modulet pypdf.annotations, som vi forklarede tidligere. På denne måde kan brugeren visuelt identificere det sted, hvor linkannoteringen er tilføjet. Tjek nedenstående kodestykke for bedre forståelse:
Produktion
Som vi kan se i outputtet, fungerer rektanglet som et område, der, når der klikkes på det, omdirigerer brugeren til det angivne link.
Uddrag annoteringer fra PDF
Vi kan udtrække annoteringer fra en PDF ved hjælp af pypdf-biblioteket. Vi itererer gennem alle annoteringer på PDF-sider og bruger derefter get_object-metoden til at hente annotationsobjektet. Derefter udtrækker vi relevant information fra objektet. Tjek nedenstående kodestykke for detaljer:
Produktion
Som vi kan se på skærmbilledet nedenfor, har programmet returneret annotationstypen og koordinaterne for annoteringerne i PDF-dokumentet:
Konklusion
Pypdf giver Python-udviklere mulighed for at tilføje forskellige typer annoteringer til PDF-filer og få adgang til væsentlig information om annoteringer, såsom deres type og placering, hvilket gør det til et praktisk valg til opgaver, der kræver tilføjelse af annoteringer og udtrækning af data om annoteringer.