Atvērtā pirmkoda Python PDF anotāciju bibliotēka
Izmēģiniet šo bezmaksas un atvērtā pirmkoda Python bibliotēku, lai pievienotu un izvilktu anotācijas no PDF dokumentiem.
Kas ir pypdf?
Pypdf ir bezmaksas un atvērtā koda python bibliotēka, kas pazīstama ar daudzveidīgo funkciju kopumu PDF dokumentu apstrādei python vidē. Šis rīks ir noderīgs dažādām PDF manipulācijām, taču šajā pārskatā mēs koncentrēsimies uz tā anotācijām saistītajām funkcijām.
Ievērojamās pypdf funkcijas, kas saistītas ar anotācijām, ir šādas:
- Formas anotāciju pievienošana: mēs varam zīmēt formas, piemēram, līnijas, taisnstūrus, elipses un daudzstūrus utt., noteiktos PDF lapu apgabalos kā anotācijas.
- Teksta anotāciju pievienošana: mēs varam pievienot teksta anotācijas noteiktām PDF lapu pozīcijām.
- Saites anotāciju pievienošana: PDF dokumentiem ir iespējams pievienot arī saišu anotācijas (piemēram, hipersaiti).
- Anotāciju izvilkšana: mēs varam atkārtot un iegūt informāciju par visām anotācijām PDF dokumentā, izmantojot pypdf bibliotēku.
Darba sākšana ar pypdf
Lai instalētu un izmantotu pypdf, nepieciešama Python versija 3.6.0 vai jaunāka versija. Tāpēc vispirms instalējiet Python un pēc tam izmantojiet tālāk norādītās komandas, lai instalētu pypdf savā datorā, izmantojot pip un virtuālā vide a>.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Pievienojiet PDF failam taisnstūra anotāciju
Izmantojot pypdf bibliotēku, PDF dokumentiem varam pievienot taisnstūra anotācijas. Lai definētu taisnstūri, mēs izmantosim pypdf.annotations moduļa klasi Rectangle no bibliotēkas pypdf. Pēc tam izmantosim klases PDFWriter metodi add_annotations, lai PDF failam pievienotu taisnstūra anotāciju.
Sīkāku informāciju skatiet tālāk norādītajā koda fragmentā.
Tālāk esošajā ekrānuzņēmumā varat redzēt, ka taisnstūris ir pievienots, lai anotētu atvērtā koda vārdu:
Pievienojiet teksta anotāciju PDF failam
Mēs veidojam teksta anotācijas, izmantojot klasi Teksts no pypdf bibliotēkas moduļa pypdf.annotations. Pēc tam mēs varam izmantot add_annotations metodi PDFWriter klasē no bibliotēkas pypdf, lai pievienotu anotāciju PDF failam. Teksta anotācija tiek pievienota kā ikona, kas izvēršas un parāda tekstu, noklikšķinot uz ikonas. Sīkāku informāciju skatiet tālāk norādītajā koda fragmentā.
Kā redzams zemāk esošajā ekrānuzņēmumā, iepriekš minētais kods PDF failam pievieno ikonu norādītajā vietā, kas parāda teksta anotāciju, noklikšķinot uz ikonas:
Pievienojiet saites anotāciju PDF failam
Saites anotācijas tiek izveidotas, izmantojot Saite klasi no moduļa pypdf.annotations. Tomēr problēma ar saites anotāciju ir tāda, ka tā tikai pievieno saiti, bet tā nav redzama. Lai atrisinātu šo problēmu, mēs iekļausim taisnstūri, izmantojot Taisnstūra klasi no moduļa pypdf.annotations, kā mēs paskaidrojām iepriekš. Tādā veidā lietotājs var vizuāli noteikt vietu, kur pievienota saites anotācija. Lai labāk izprastu, pārbaudiet tālāk norādīto koda fragmentu.
Kā redzam izvadē, taisnstūris kalpo kā apgabals, uz kura noklikšķinot, lietotājs tiek novirzīts uz norādīto saiti.
Izņemiet anotācijas no PDF
Mēs varam izvilkt anotācijas no PDF, izmantojot pypdf bibliotēku. Mēs atkārtojam visas anotācijas PDF lapās un pēc tam izmantojam metodi get_object, lai iegūtu anotācijas objektu. Pēc tam mēs iegūstam attiecīgo informāciju no objekta. Sīkāku informāciju skatiet tālāk norādītajā koda fragmentā.
Kā redzams zemāk esošajā ekrānuzņēmumā, programma PDF dokumentā ir atgriezusi anotācijas veidu un anotāciju koordinātas:
Secinājums
Pypdf ļauj Python izstrādātājiem pievienot PDF failiem dažāda veida anotācijas un piekļūt būtiskai informācijai par anotācijām, piemēram, to veidu un atrašanās vietu, padarot to par praktisku izvēli uzdevumiem, kuros jāpievieno anotācijas un jāizņem dati par anotācijām.