Perpustakaan Anotasi PDF Python Sumber Terbuka
Cuba pustaka Python Percuma & Sumber Terbuka ini untuk menambah dan mengekstrak anotasi daripada dokumen PDF.
Apakah itu pypdf?
Pypdf ialah perpustakaan python percuma dan sumber terbuka yang terkenal dengan set ciri yang pelbagai untuk mengendalikan dokumen PDF dalam persekitaran python. Alat ini sememangnya berguna untuk pelbagai manipulasi PDF tetapi kami akan menumpukan pada ciri berkaitan anotasinya dalam ulasan ini.
Ciri penting pypdf yang berkaitan dengan anotasi termasuk:
- Menambah Anotasi Bentuk: Kami boleh melukis bentuk seperti garisan, segi empat tepat, elips dan poligon dsb. pada kawasan tertentu halaman PDF sebagai anotasi.
- Menambah Anotasi Teks: Kami boleh menambah anotasi teks pada kedudukan tertentu halaman PDF.
- Menambah Anotasi Pautan: Anda juga boleh menambah anotasi pautan (seperti hiperpautan) pada dokumen PDF.
- Mengekstrak Anotasi: Kami boleh mengulang dan mengekstrak maklumat tentang semua anotasi dalam dokumen PDF menggunakan perpustakaan pypdf.
Bermula dengan pypdf
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Tambahkan Anotasi Segi Empat pada PDF
Kami boleh menambah anotasi segi empat tepat pada dokumen PDF menggunakan perpustakaan pypdf. Kami akan menggunakan kelas Segi empat tepat modul pypdf.anotasi daripada pustaka pypdf untuk mentakrifkan segi empat tepat. Kemudian kami akan menggunakan kaedah add_annotations kelas PDFWriter untuk menambah anotasi segi empat tepat pada PDF.
Semak coretan kod di bawah untuk butiran:
Dalam tangkapan skrin di bawah, anda boleh melihat bahawa segi empat tepat ditambahkan untuk menganotasi perkataan Sumber Terbuka:
Tambahkan Anotasi Teks pada PDF
Kami membuat anotasi teks menggunakan kelas Teks daripada modul pypdf.anotasi pustaka pypdf. Selepas itu kita boleh menggunakan kaedah add_annotations kelas PDFWriter daripada pustaka pypdf untuk menambah anotasi pada PDF. Anotasi teks ditambah sebagai ikon yang mengembang dan menunjukkan teks apabila ikon diklik. Semak coretan kod di bawah untuk butiran:
Seperti yang dapat kita lihat dalam siaran skrin di bawah, kod di atas menambah ikon pada PDF pada kedudukan tertentu yang menunjukkan anotasi teks apabila ikon diklik:
Tambahkan Anotasi Pautan pada PDF
Anotasi pautan dibuat menggunakan kelas Pautan daripada modul pypdf.anotasi. Walau bagaimanapun, isu dengan anotasi pautan ialah ia hanya menambah pautan tetapi ia tidak kelihatan. Untuk menangani isu ini, kami akan menggabungkan segi empat tepat menggunakan kelas Segi empat tepat daripada modul pypdf.anotasi seperti yang kami jelaskan sebelum ini. Dengan cara ini, pengguna boleh mengenal pasti secara visual lokasi di mana anotasi pautan ditambahkan. Semak coretan kod di bawah untuk pemahaman yang lebih baik:
Seperti yang dapat kita lihat dalam output, segi empat tepat berfungsi sebagai kawasan yang, apabila diklik, mengubah hala pengguna ke pautan yang ditentukan.
Ekstrak Anotasi daripada PDF
Kami boleh mengekstrak anotasi daripada PDF menggunakan perpustakaan pypdf. Kami mengulangi semua anotasi pada halaman PDF dan kemudian menggunakan kaedah get_object untuk mendapatkan objek anotasi. Kemudian kami mengekstrak maklumat yang relevan daripada objek. Semak coretan kod di bawah untuk butiran:
Seperti yang dapat kita lihat dalam tangkapan skrin di bawah, program telah mengembalikan jenis anotasi dan koordinat anotasi dalam dokumen PDF:
Kesimpulan
Pypdf memberi kuasa kepada pembangun Python untuk menambah pelbagai jenis anotasi pada PDF dan mengakses maklumat penting tentang anotasi, seperti jenis dan lokasinya, menjadikannya pilihan praktikal untuk tugas yang memerlukan penambahan anotasi dan mengekstrak data tentang anotasi.