Open Source Python PDF-Annotationsbibliothek
Probieren Sie diese kostenlose und Open Source-Python-Bibliothek zum Hinzufügen und Extrahieren von Anmerkungen aus PDF-Dokumenten aus.
Was ist pypdf?
Pypdf ist eine kostenlose und quelloffene Python-Bibliothek, die für ihre vielfältigen Funktionen zur Handhabung von PDF-Dokumenten in der Python-Umgebung bekannt ist. Dieses Tool ist für verschiedene PDF-Manipulationen praktisch, wir werden uns in dieser Rezension jedoch auf die Annotationsfunktionen konzentrieren.
Zu den bemerkenswerten Funktionen von pypdf im Zusammenhang mit Anmerkungen gehören:
- Formanmerkungen hinzufügen: Wir können Formen wie Linien, Rechtecke, Ellipsen und Polygone usw. als Anmerkungen in bestimmte Bereiche von PDF-Seiten zeichnen.
- Textanmerkungen hinzufügen: Wir können an bestimmten Stellen von PDF-Seiten Textanmerkungen hinzufügen.
- Linkanmerkungen hinzufügen: Es ist möglich, PDF-Dokumenten auch Linkanmerkungen (wie einen Hyperlink) hinzuzufügen.
- Anmerkungen extrahieren: Mit der Bibliothek pypdf können wir alle Anmerkungen in einem PDF-Dokument iterieren und Informationen extrahieren.
Erste Schritte mit pypdf
Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf auf Ihrem Computer mit pip und virtueller Umgebung zu installieren.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Rechteckige Anmerkungen zu PDF hinzufügen
Mithilfe der pypdf-Bibliothek können wir PDF-Dokumenten Rechteckanmerkungen hinzufügen. Wir verwenden die Klasse Rectangle des Moduls pypdf.annotations aus der Bibliothek pypdf, um das Rechteck zu definieren. Anschließend verwenden wir die Methode add_annotations der Klasse PDFWriter, um dem PDF Rechteckanmerkungen hinzuzufügen.
Weitere Einzelheiten finden Sie im folgenden Codeausschnitt:
Ausgabe
Im folgenden Screenshot können Sie sehen, dass ein Rechteck hinzugefügt wird, um das Wort Open Source zu kommentieren:
Textanmerkungen zu PDF hinzufügen
Wir erstellen Textanmerkungen mit der Klasse Text aus dem Modul pypdf.annotations der Bibliothek pypdf. Danach können wir die Methode add_annotations der Klasse PDFWriter aus der Bibliothek pypdf verwenden, um Anmerkungen zum PDF hinzuzufügen. Die Textanmerkung wird als Symbol hinzugefügt, das sich erweitert und den Text anzeigt, wenn auf das Symbol geklickt wird. Weitere Einzelheiten finden Sie im folgenden Codeausschnitt:
Ausgabe
Wie wir im folgenden Screencast sehen können, fügt der obige Code an der angegebenen Position ein Symbol zum PDF hinzu, das beim Anklicken des Symbols eine Textanmerkung anzeigt:
Linkanmerkung zum PDF hinzufügen
Linkanmerkungen werden mithilfe der Klasse Link aus dem Modul pypdf.annotations erstellt. Das Problem mit der Linkanmerkung besteht jedoch darin, dass sie nur den Link hinzufügt, dieser aber nicht sichtbar ist. Um dieses Problem zu beheben, werden wir mithilfe der Klasse Rectangle aus dem Modul pypdf.annotations ein Rechteck einfügen, wie wir bereits erklärt haben. Auf diese Weise kann der Benutzer die Stelle, an der die Linkanmerkung hinzugefügt wird, visuell identifizieren. Sehen Sie sich zum besseren Verständnis den folgenden Codeausschnitt an:
Ausgabe
Wie wir in der Ausgabe sehen können, dient das Rechteck als Bereich, der den Benutzer beim Anklicken zum angegebenen Link weiterleitet.
Anmerkungen aus PDF extrahieren
Mithilfe der pypdf-Bibliothek können wir Anmerkungen aus einer PDF-Datei extrahieren. Wir durchlaufen alle Anmerkungen auf PDF-Seiten und verwenden dann die Methode get_object, um das Anmerkungsobjekt abzurufen. Anschließend extrahieren wir relevante Informationen aus dem Objekt. Weitere Einzelheiten finden Sie im folgenden Codeausschnitt:
Ausgabe
Wie wir im folgenden Screenshot sehen können, hat das Programm den Anmerkungstyp und die Koordinaten der Anmerkungen im PDF-Dokument zurückgegeben:
Abschluss
Pypdf ermöglicht Python-Entwicklern, PDF-Dateien verschiedene Arten von Anmerkungen hinzuzufügen und auf wichtige Informationen zu Anmerkungen zuzugreifen, beispielsweise zu deren Typ und Speicherort. Daher ist es eine praktische Wahl für Aufgaben, bei denen Anmerkungen hinzugefügt und Daten zu Anmerkungen extrahiert werden müssen.