PdfPig: Erweiterte PDF-Text-Extraktion für .NET

Lesen und analysieren Sie PDF-Inhalte ohne Abhängigkeiten - Text, Positionen, Schriftarten und Metadaten

Was ist PdfPig?

PdfPig ist eine Open-Source-.NET-Bibliothek, die sich auf die Extraktion von Inhalten aus PDF-Dateien ohne native Abhängigkeiten konzentriert. Im Gegensatz zu PDF-Generatoren ist PdfPig spezialisiert auf das Lesen vorhandener Dokumente, um auf Text, Schriftartinformationen, Positionsdaten und Dokumentstruktur zuzugreifen. Besonders wertvoll für Data Mining, Inhaltsanalyse und Dokumentenverarbeitungspipelines.

Hauptvorteile von PdfPig:

Keine Abhängigkeiten: Reine C#-Implementierung
Low-Level-Zugriff: Präzise Textpositionierung und Schriftmetriken
Speichereffizient: Verarbeitet große Dokumente mit minimalem Overhead
OCR-bereit: Text mit Begrenzungsrahmen für Analysen extrahieren
MIT-Lizenz: Kostenlos für kommerzielle Nutzung

Ideal für Dokumentenanalyse, Textextraktion und PDF-Inhaltsverarbeitung.

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Warum PdfPig wählen?

Genauigkeit: Verarbeitet komplexe PDF-Textlayouts korrekt
Leistung: Schneller als ähnliche .NET-Bibliotheken
Transparenz: Zugriff auf rohe PDF-Strukturen bei Bedarf
Aktive Entwicklung: Regelmäßige Updates seit 2018
Plattformübergreifend: Funktioniert mit .NET Standard 2.0+

Installation

PdfPig ist über NuGet für eine einfache Integration verfügbar:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemanforderungen: .NET Standard 2.0-kompatible Laufzeitumgebung

Codebeispiele

Praktische Beispiele der PdfPig-Funktionen:

PdfPig-Extraktion

Beispiel 1: Grundlegende Textextraktion

Dieses Beispiel zeigt, wie ein PDF-Dokument geöffnet und der gesamte Textinhalt unter Beibehaltung der Lesereihenfolge extrahiert wird. PdfPig ermöglicht den Zugriff auf jedes Zeichen mit seiner genauen Position im Dokument.

Ausgabe beinhaltet:

Rohen Textinhalt in Lesereihenfolge
Seitennummern für jeden Textabschnitt
Grundlegende Schriftartinformationen

Beispiel 2: Erweiterte Positionsanalyse

PdfPig zeichnet sich durch die Bereitstellung präziser Positionsdaten für Textelemente aus. Dieses Beispiel zeigt, wie Wörter mit ihren Begrenzungsrahmen extrahiert werden.

Beispiel 3: Schriftart- und Metadatenextraktion

Neben Textinhalten bietet PdfPig Zugriff auf Dokumentmetadaten und detaillierte Schriftartinformationen.

Erweiterte Funktionen

PdfPig unterstützt professionelle PDF-Analysen:

Bilderextraktion: Zugriff auf eingebettete Bilder:

Bilderextraktion


    using var document = PdfDocument.Open("datei.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Bilddaten verarbeiten
        }
    }

Lesezeichennavigation: Zugriff auf Dokumentgliederung:

Lesezeichen


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Seite {bookmark.PageNumber}");
    }

Verschlüsselte PDFs: Umgang mit passwortgeschützten Dateien:

Verschlüsseltes PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("verschlüsselt.pdf", options);

PdfPig vs PdfSharp

5 wesentliche Unterschiede zwischen PdfPig und PDFsharp:

Hauptfunktion: PdfPig spezialisiert sich auf Lesen/Extrahieren von Text und Metadaten. PDFsharp konzentriert sich auf das Erstellen/Bearbeiten von PDF-Dokumenten
Text vs Grafik: PdfPig extrahiert Text mit Pixelgenauigkeit. PDFsharp ist für das Zeichnen von Text/Formen optimiert
Dokumentenzugriff: PdfPig analysiert vorhandene PDFs, PDFsharp kann Seiten modifizieren
Erweiterte Funktionen: PdfPig offenbart Schriftdetails und Dokumentstruktur, PDFsharp unterstützt PDF/A-Standards
Anwendungsfälle: PdfPig für Data Mining, PDFsharp für Berichtgenerierung

Fazit

PdfPig bietet .NET-Entwicklern unübertroffenen Zugriff auf PDF-Inhalte. Ideal für:

Datenextraktion: Inhaltsgewinnung aus Berichten
Dokumentenanalyse: Verständnis der PDF-Struktur
Barrierefreiheit: Konvertierung von PDF-Inhalten in andere Formate
Vorverarbeitung: Vorbereitung von Dokumenten für OCR oder ML

Mit seinem Fokus auf präzise Extraktion und geringem Speicherverbrauch ist PdfPig die beste Wahl für PDF-Analysen in .NET.