Biblioteca de adnotări PDF Python cu sursă deschisă
Încercați această bibliotecă Python gratuită și open source pentru a adăuga și a extrage adnotări din documente PDF.
Ce este pypdf?
Pypdf este o bibliotecă python gratuită și open-source, cunoscută pentru setul divers de caracteristici pentru gestionarea documentelor PDF în mediul python. Acest instrument este util pentru diverse manipulări PDF, dar ne vom concentra pe caracteristicile sale legate de adnotare în această recenzie.
Caracteristicile notabile ale pypdf legate de adnotări includ:
- Adăugarea de adnotări de formă: putem desena forme precum linii, dreptunghiuri, elipse și poligoane etc. pe anumite zone ale paginilor PDF sub formă de adnotări.
- Adăugarea de adnotări text: putem adăuga adnotări text în anumite poziții ale paginilor PDF.
- Adăugarea de adnotări de link: este posibil să adăugați și adnotări de link (precum un hyperlink) la documentele PDF.
- Extragerea adnotărilor: putem repeta și extrage informații despre toate adnotările dintr-un document PDF utilizând biblioteca pypdf.
Noțiuni introductive cu pypdf
Aveți nevoie de versiunea Python 3.6.0 sau mai mare pentru a instala și utiliza pypdf. Deci, mai întâi instalați Python și apoi utilizați comenzile de mai jos pentru a instala pypdf pe computer folosind pip și mediu virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Adăugați adnotare dreptunghiulară la PDF
Putem adăuga adnotări dreptunghiulare la documentele PDF folosind biblioteca pypdf. Vom folosi clasa Rectangle a modulului pypdf.annotations din biblioteca pypdf pentru a defini dreptunghiul. Apoi vom folosi metoda add_annotations a clasei PDFWriter pentru a adăuga adnotări dreptunghiulare la PDF.
Verificați fragmentul de cod de mai jos pentru detalii:
În captura de ecran de mai jos, puteți vedea că dreptunghiul este adăugat pentru adnotarea cuvântului Open Source:
Adăugați adnotare text în PDF
Creăm adnotări text utilizând clasa Text din modulul pypdf.annotations al bibliotecii pypdf. După aceea, putem folosi metoda add_annotations din clasa PDFWriter din biblioteca pypdf pentru a adăuga adnotări la PDF. Adnotarea text este adăugată ca o pictogramă care se extinde și arată textul atunci când se face clic pe pictogramă. Verificați fragmentul de cod de mai jos pentru detalii:
După cum putem vedea în screencast-ul de mai jos, codul de mai sus adaugă o pictogramă PDF-ului la poziția specificată, care arată adnotarea textului când se face clic pe pictogramă:
Adăugați adnotare pentru link la PDF
Adnotările de link sunt create folosind clasa Link din modulul pypdf.annotations. Cu toate acestea, problema cu adnotarea linkului este că doar adaugă linkul, dar nu este vizibil. Pentru a rezolva această problemă, vom încorpora un dreptunghi folosind clasa Rectangle din modulul pypdf.annotations, așa cum am explicat mai devreme. În acest fel, utilizatorul poate identifica vizual locația în care este adăugată adnotarea linkului. Verificați fragmentul de cod de mai jos pentru o mai bună înțelegere:
După cum putem vedea în rezultat, dreptunghiul servește ca o zonă care, atunci când se dă clic, redirecționează utilizatorul către linkul specificat.
Extrageți adnotări din PDF
Putem extrage adnotări dintr-un PDF folosind biblioteca pypdf. Repetăm toate adnotările de pe paginile PDF și apoi folosim metoda get_object pentru a obține obiectul de adnotare. Apoi extragem informații relevante din obiect. Verificați fragmentul de cod de mai jos pentru detalii:
După cum putem vedea în captura de ecran de mai jos, programul a returnat tipul de adnotare și coordonatele adnotărilor din documentul PDF:
Concluzie
Pypdf le permite dezvoltatorilor Python să adauge diferite tipuri de adnotări la PDF-uri și să acceseze informații esențiale despre adnotări, cum ar fi tipul și locația acestora, făcându-l o alegere practică pentru sarcinile care necesită adăugarea de adnotări și extragerea de date despre adnotări.