Bibliothèque d'annotations PDF Python Open Source
Essayez cette bibliothèque Python gratuite et open source pour ajouter et extraire des annotations à partir de documents PDF.
Qu’est-ce que pypdf ?
Pypdf est une bibliothèque Python gratuite et open source connue pour son ensemble diversifié de fonctionnalités permettant de gérer les documents PDF dans un environnement Python. Cet outil est utile pour diverses manipulations de PDF, mais nous nous concentrerons sur ses fonctionnalités liées aux annotations dans cette revue.
Les fonctionnalités notables de pypdf liées aux annotations incluent :
- Ajout d'annotations de forme : Nous pouvons dessiner des formes telles que des lignes, des rectangles, des ellipses et des polygones, etc. sur des zones spécifiques des pages PDF en tant qu'annotations.
- Ajout d'annotations de texte : nous pouvons ajouter des annotations de texte à des positions spécifiques des pages PDF.
- Ajout d'annotations de lien : il est également possible d'ajouter des annotations de lien (comme un lien hypertexte) aux documents PDF.
- Extraction d'annotations : nous pouvons parcourir et extraire des informations sur toutes les annotations d'un document PDF à l'aide de la bibliothèque pypdf.
Premiers pas avec pypdf
Vous avez besoin de Python version 3.6.0 ou supérieure pour installer et utiliser pypdf. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Mac OS
python -m venv venv
source venv/bin/activate
pip install pypdf
les fenêtres
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Ajouter une annotation rectangulaire au PDF
Nous pouvons ajouter des annotations rectangulaires aux documents PDF en utilisant la bibliothèque pypdf. Nous utiliserons la classe Rectangle du module pypdf.annotations de la bibliothèque pypdf pour définir le rectangle. Ensuite, nous utiliserons la méthode add_annotations de la classe PDFWriter pour ajouter une annotation rectangulaire au PDF.
Consultez l'extrait de code ci-dessous pour plus de détails :
Sortir
Dans la capture d'écran ci-dessous, vous pouvez voir que le rectangle est ajouté pour annoter le mot Open Source :
Ajouter une annotation de texte au PDF
Nous créons des annotations de texte à l'aide de la classe Text du module pypdf.annotations de la bibliothèque pypdf. Après cela, nous pouvons utiliser la méthode add_annotations de la classe PDFWriter de la bibliothèque pypdf pour ajouter une annotation au PDF. L'annotation de texte est ajoutée sous la forme d'une icône qui se développe et affiche le texte lorsque vous cliquez sur l'icône. Consultez l'extrait de code ci-dessous pour plus de détails :
Sortir
Comme nous pouvons le voir dans le screencast ci-dessous, le code ci-dessus ajoute une icône au PDF à la position spécifiée qui affiche une annotation de texte lorsque l'on clique sur l'icône :
Ajouter une annotation de lien au PDF
Les annotations de lien sont créées à l'aide de la classe Link du module pypdf.annotations. Cependant, le problème avec l'annotation de lien est qu'elle ajoute simplement le lien mais qu'il n'est pas visible. Pour résoudre ce problème, nous allons incorporer un rectangle en utilisant la classe Rectangle du module pypdf.annotations comme nous l'avons expliqué précédemment. De cette façon, l'utilisateur peut identifier visuellement l'emplacement où l'annotation du lien est ajoutée. Consultez l'extrait de code ci-dessous pour une meilleure compréhension :
Sortir
Comme nous pouvons le voir dans le résultat, le rectangle sert de zone qui, lorsqu'on clique dessus, redirige l'utilisateur vers le lien spécifié.
Extraire les annotations du PDF
Nous pouvons extraire des annotations d'un PDF en utilisant la bibliothèque pypdf. Nous parcourons toutes les annotations sur les pages PDF, puis utilisons la méthode get_object pour obtenir l'objet d'annotation. Ensuite, nous extrayons les informations pertinentes de l'objet. Consultez l'extrait de code ci-dessous pour plus de détails :
Sortir
Comme nous pouvons le voir dans la capture d'écran ci-dessous, le programme a renvoyé le type d'annotation et les coordonnées des annotations dans le document PDF :
Conclusion
Pypdf permet aux développeurs Python d'ajouter différents types d'annotations aux PDF et d'accéder à des informations essentielles sur les annotations, telles que leur type et leur emplacement, ce qui en fait un choix pratique pour les tâches nécessitant l'ajout d'annotations et l'extraction de données sur les annotations.