PdfPig: Erweiterte PDF-Text-Extraktion für .NET
Lesen und analysieren Sie PDF-Inhalte ohne Abhängigkeiten - Text, Positionen, Schriftarten und Metadaten
Was ist PdfPig?
PdfPig ist eine Open-Source-.NET-Bibliothek, die sich auf die Extraktion von Inhalten aus PDF-Dateien ohne native Abhängigkeiten konzentriert. Im Gegensatz zu PDF-Generatoren ist PdfPig spezialisiert auf das Lesen vorhandener Dokumente, um auf Text, Schriftartinformationen, Positionsdaten und Dokumentstruktur zuzugreifen. Besonders wertvoll für Data Mining, Inhaltsanalyse und Dokumentenverarbeitungspipelines.
Hauptvorteile von PdfPig:
- Keine Abhängigkeiten: Reine C#-Implementierung
- Low-Level-Zugriff: Präzise Textpositionierung und Schriftmetriken
- Speichereffizient: Verarbeitet große Dokumente mit minimalem Overhead
- OCR-bereit: Text mit Begrenzungsrahmen für Analysen extrahieren
- MIT-Lizenz: Kostenlos für kommerzielle Nutzung
Ideal für Dokumentenanalyse, Textextraktion und PDF-Inhaltsverarbeitung.
Warum PdfPig wählen?
- Genauigkeit: Verarbeitet komplexe PDF-Textlayouts korrekt
- Leistung: Schneller als ähnliche .NET-Bibliotheken
- Transparenz: Zugriff auf rohe PDF-Strukturen bei Bedarf
- Aktive Entwicklung: Regelmäßige Updates seit 2018
- Plattformübergreifend: Funktioniert mit .NET Standard 2.0+
Installation
PdfPig ist über NuGet für eine einfache Integration verfügbar:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Systemanforderungen: .NET Standard 2.0-kompatible Laufzeitumgebung
Codebeispiele
Praktische Beispiele der PdfPig-Funktionen:
Beispiel 1: Grundlegende Textextraktion
Dieses Beispiel zeigt, wie ein PDF-Dokument geöffnet und der gesamte Textinhalt unter Beibehaltung der Lesereihenfolge extrahiert wird. PdfPig ermöglicht den Zugriff auf jedes Zeichen mit seiner genauen Position im Dokument.
Ausgabe beinhaltet:
- Rohen Textinhalt in Lesereihenfolge
- Seitennummern für jeden Textabschnitt
- Grundlegende Schriftartinformationen
Beispiel 2: Erweiterte Positionsanalyse
PdfPig zeichnet sich durch die Bereitstellung präziser Positionsdaten für Textelemente aus. Dieses Beispiel zeigt, wie Wörter mit ihren Begrenzungsrahmen extrahiert werden.
Beispiel 3: Schriftart- und Metadatenextraktion
Neben Textinhalten bietet PdfPig Zugriff auf Dokumentmetadaten und detaillierte Schriftartinformationen.
Erweiterte Funktionen
PdfPig unterstützt professionelle PDF-Analysen:
- Bilderextraktion: Zugriff auf eingebettete Bilder:
Bilderextraktion
using var document = PdfDocument.Open("datei.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Bilddaten verarbeiten } }
- Lesezeichennavigation: Zugriff auf Dokumentgliederung:
Lesezeichen
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Seite {bookmark.PageNumber}"); }
- Verschlüsselte PDFs: Umgang mit passwortgeschützten Dateien:
Verschlüsseltes PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("verschlüsselt.pdf", options);
PdfPig vs PdfSharp
5 wesentliche Unterschiede zwischen PdfPig und PDFsharp:
- Hauptfunktion: PdfPig spezialisiert sich auf Lesen/Extrahieren von Text und Metadaten. PDFsharp konzentriert sich auf das Erstellen/Bearbeiten von PDF-Dokumenten
- Text vs Grafik: PdfPig extrahiert Text mit Pixelgenauigkeit. PDFsharp ist für das Zeichnen von Text/Formen optimiert
- Dokumentenzugriff: PdfPig analysiert vorhandene PDFs, PDFsharp kann Seiten modifizieren
- Erweiterte Funktionen: PdfPig offenbart Schriftdetails und Dokumentstruktur, PDFsharp unterstützt PDF/A-Standards
- Anwendungsfälle: PdfPig für Data Mining, PDFsharp für Berichtgenerierung
Fazit
PdfPig bietet .NET-Entwicklern unübertroffenen Zugriff auf PDF-Inhalte. Ideal für:
- Datenextraktion: Inhaltsgewinnung aus Berichten
- Dokumentenanalyse: Verständnis der PDF-Struktur
- Barrierefreiheit: Konvertierung von PDF-Inhalten in andere Formate
- Vorverarbeitung: Vorbereitung von Dokumenten für OCR oder ML
Mit seinem Fokus auf präzise Extraktion und geringem Speicherverbrauch ist PdfPig die beste Wahl für PDF-Analysen in .NET.