1. Produkte
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Erweiterte PDF-Text-Extraktion für .NET

Lesen und analysieren Sie PDF-Inhalte ohne Abhängigkeiten - Text, Positionen, Schriftarten und Metadaten

Was ist PdfPig?

PdfPig ist eine Open-Source-.NET-Bibliothek, die sich auf die Extraktion von Inhalten aus PDF-Dateien ohne native Abhängigkeiten konzentriert. Im Gegensatz zu PDF-Generatoren ist PdfPig spezialisiert auf das Lesen vorhandener Dokumente, um auf Text, Schriftartinformationen, Positionsdaten und Dokumentstruktur zuzugreifen. Besonders wertvoll für Data Mining, Inhaltsanalyse und Dokumentenverarbeitungspipelines.

Hauptvorteile von PdfPig:

  • Keine Abhängigkeiten: Reine C#-Implementierung
  • Low-Level-Zugriff: Präzise Textpositionierung und Schriftmetriken
  • Speichereffizient: Verarbeitet große Dokumente mit minimalem Overhead
  • OCR-bereit: Text mit Begrenzungsrahmen für Analysen extrahieren
  • MIT-Lizenz: Kostenlos für kommerzielle Nutzung

Ideal für Dokumentenanalyse, Textextraktion und PDF-Inhaltsverarbeitung.

GitHub

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Warum PdfPig wählen?

  • Genauigkeit: Verarbeitet komplexe PDF-Textlayouts korrekt
  • Leistung: Schneller als ähnliche .NET-Bibliotheken
  • Transparenz: Zugriff auf rohe PDF-Strukturen bei Bedarf
  • Aktive Entwicklung: Regelmäßige Updates seit 2018
  • Plattformübergreifend: Funktioniert mit .NET Standard 2.0+

Installation

PdfPig ist über NuGet für eine einfache Integration verfügbar:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemanforderungen: .NET Standard 2.0-kompatible Laufzeitumgebung

Codebeispiele

Praktische Beispiele der PdfPig-Funktionen:

PdfPig-Extraktion

Beispiel 1: Grundlegende Textextraktion

Dieses Beispiel zeigt, wie ein PDF-Dokument geöffnet und der gesamte Textinhalt unter Beibehaltung der Lesereihenfolge extrahiert wird. PdfPig ermöglicht den Zugriff auf jedes Zeichen mit seiner genauen Position im Dokument.

Ausgabe beinhaltet:

  • Rohen Textinhalt in Lesereihenfolge
  • Seitennummern für jeden Textabschnitt
  • Grundlegende Schriftartinformationen

Beispiel 2: Erweiterte Positionsanalyse

PdfPig zeichnet sich durch die Bereitstellung präziser Positionsdaten für Textelemente aus. Dieses Beispiel zeigt, wie Wörter mit ihren Begrenzungsrahmen extrahiert werden.

Beispiel 3: Schriftart- und Metadatenextraktion

Neben Textinhalten bietet PdfPig Zugriff auf Dokumentmetadaten und detaillierte Schriftartinformationen.

Erweiterte Funktionen

PdfPig unterstützt professionelle PDF-Analysen:

  • Bilderextraktion: Zugriff auf eingebettete Bilder:

    Bilderextraktion

    
        using var document = PdfDocument.Open("datei.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Bilddaten verarbeiten
            }
        }
        
    
  • Lesezeichennavigation: Zugriff auf Dokumentgliederung:

    Lesezeichen

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Seite {bookmark.PageNumber}");
        }
        
    
  • Verschlüsselte PDFs: Umgang mit passwortgeschützten Dateien:

    Verschlüsseltes PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("verschlüsselt.pdf", options);
        
    

PdfPig vs PdfSharp

5 wesentliche Unterschiede zwischen PdfPig und PDFsharp:

  • Hauptfunktion: PdfPig spezialisiert sich auf Lesen/Extrahieren von Text und Metadaten. PDFsharp konzentriert sich auf das Erstellen/Bearbeiten von PDF-Dokumenten
  • Text vs Grafik: PdfPig extrahiert Text mit Pixelgenauigkeit. PDFsharp ist für das Zeichnen von Text/Formen optimiert
  • Dokumentenzugriff: PdfPig analysiert vorhandene PDFs, PDFsharp kann Seiten modifizieren
  • Erweiterte Funktionen: PdfPig offenbart Schriftdetails und Dokumentstruktur, PDFsharp unterstützt PDF/A-Standards
  • Anwendungsfälle: PdfPig für Data Mining, PDFsharp für Berichtgenerierung

Fazit

PdfPig bietet .NET-Entwicklern unübertroffenen Zugriff auf PDF-Inhalte. Ideal für:

  • Datenextraktion: Inhaltsgewinnung aus Berichten
  • Dokumentenanalyse: Verständnis der PDF-Struktur
  • Barrierefreiheit: Konvertierung von PDF-Inhalten in andere Formate
  • Vorverarbeitung: Vorbereitung von Dokumenten für OCR oder ML

Mit seinem Fokus auf präzise Extraktion und geringem Speicherverbrauch ist PdfPig die beste Wahl für PDF-Analysen in .NET.

Ähnliche Produkte

 Deutsch