Open-Source-Python-PDF-Anmerkungsbibliothek
Probieren Sie diese kostenlose und Open-Source-Python-Bibliothek zum Hinzufügen und Extrahieren von Anmerkungen aus PDF-Dokumenten aus.
Was ist pypdf?
Pypdf ist eine kostenlose Open-Source-Python-Bibliothek, die für ihre vielfältigen Funktionen zur Verarbeitung von PDF-Dokumenten in einer Python-Umgebung bekannt ist. Dieses Tool ist zwar für verschiedene PDF-Manipulationen nützlich, aber wir werden uns in diesem Test auf seine annotationsbezogenen Funktionen konzentrieren.
Zu den bemerkenswerten Funktionen von pypdf im Zusammenhang mit Anmerkungen gehören:
- Formanmerkungen hinzufügen: Wir können Formen wie Linien, Rechtecke, Ellipsen und Polygone usw. als Anmerkungen auf bestimmte Bereiche von PDF-Seiten zeichnen.
- Textanmerkungen hinzufügen: Wir können Textanmerkungen an bestimmten Positionen von PDF-Seiten hinzufügen.
- Hinzufügen von Linkanmerkungen: Es ist auch möglich, Linkanmerkungen (wie einen Hyperlink) zu PDF-Dokumenten hinzuzufügen.
- Anmerkungen extrahieren: Mit der pypdf-Bibliothek können wir Informationen zu allen Anmerkungen in einem PDF-Dokument iterieren und extrahieren.
Erste Schritte mit pypdf
Sie benötigen Python Version 3.6.0 oder höher, um pypdf zu installieren und zu verwenden. Installieren Sie also zuerst Python und verwenden Sie dann die folgenden Befehle, um pypdf mit pip und virtuelle Umgebung.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Mac OS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Fügen Sie der PDF-Datei eine rechteckige Anmerkung hinzu
Mithilfe der pypdf-Bibliothek können wir PDF-Dokumenten rechteckige Anmerkungen hinzufügen. Wir verwenden die Klasse Rectangle des Moduls pypdf.annotations aus der Bibliothek pypdf, um das Rechteck zu definieren. Anschließend verwenden wir die Methode add_annotations der Klasse PDFWriter, um dem PDF rechteckige Anmerkungen hinzuzufügen.
Weitere Informationen finden Sie im folgenden Codeausschnitt:
Ausgabe
Im folgenden Screenshot können Sie sehen, dass ein Rechteck hinzugefügt wurde, um das Open Source-Wort mit Anmerkungen zu versehen:
Fügen Sie Textanmerkungen zu PDF hinzu
Wir erstellen Textanmerkungen mit der Klasse Text aus dem Modul pypdf.annotations der Bibliothek pypdf. Danach können wir die Methode add_annotations der Klasse PDFWriter aus der Bibliothek pypdf verwenden, um dem PDF Anmerkungen hinzuzufügen. Die Textanmerkung wird als Symbol hinzugefügt, das erweitert wird und den Text anzeigt, wenn auf das Symbol geklickt wird. Weitere Informationen finden Sie im folgenden Codeausschnitt:
Ausgabe
Wie wir im folgenden Screencast sehen können, fügt der obige Code an der angegebenen Position ein Symbol zum PDF hinzu, das Textanmerkungen anzeigt, wenn auf das Symbol geklickt wird:
Linkanmerkung zu PDF hinzufügen
Linkanmerkungen werden mit der Klasse Link aus dem Modul pypdf.annotations erstellt. Das Problem mit der Linkanmerkung besteht jedoch darin, dass sie nur den Link hinzufügt, dieser aber nicht sichtbar ist. Um dieses Problem zu beheben, werden wir ein Rechteck mithilfe der Klasse Rectangle aus dem Modul pypdf.annotations einbinden, wie wir zuvor erklärt haben. Auf diese Weise kann der Benutzer die Stelle, an der die Linkanmerkung hinzugefügt wird, visuell erkennen. Sehen Sie sich zum besseren Verständnis den folgenden Codeausschnitt an:
Ausgabe
Wie wir in der Ausgabe sehen können, dient das Rechteck als Bereich, der den Benutzer beim Klicken zum angegebenen Link weiterleitet.
Extrahieren Sie Anmerkungen aus PDF
Mit der pypdf-Bibliothek können wir Anmerkungen aus einer PDF-Datei extrahieren. Wir durchlaufen alle Anmerkungen auf PDF-Seiten und verwenden dann die Methode get_object, um das Anmerkungsobjekt abzurufen. Anschließend extrahieren wir relevante Informationen aus dem Objekt. Weitere Informationen finden Sie im folgenden Codeausschnitt:
Ausgabe
Wie wir im folgenden Screenshot sehen können, hat das Programm den Anmerkungstyp und die Koordinaten der Anmerkungen im PDF-Dokument zurückgegeben:
Abschluss
Pypdf ermöglicht Python-Entwicklern das Hinzufügen verschiedener Arten von Anmerkungen zu PDFs und den Zugriff auf wichtige Informationen zu Anmerkungen, wie z. B. deren Typ und Speicherort. Dies macht es zu einer praktischen Wahl für Aufgaben, die das Hinzufügen von Anmerkungen und das Extrahieren von Daten zu Anmerkungen erfordern.