1. Producten
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Geavanceerde PDF-tekstextractie voor .NET

Lees en analyseer PDF-inhoud zonder afhankelijkheden - tekst, posities, lettertypen en metadata

Wat is PdfPig?

PdfPig is een open-source .NET-bibliotheek gericht op het extraheren van inhoud uit PDF-bestanden zonder de overhead van native afhankelijkheden. In tegenstelling tot PDF-generators specialiseert PdfPig zich in het lezen van bestaande documenten om toegang te krijgen tot tekst, lettertype-informatie, positiegegevens en documentstructuur. Het is bijzonder waardevol voor data mining, inhoudsanalyse en documentverwerkingspijplijnen.

Belangrijke voordelen van PdfPig:

  • Geen afhankelijkheden: Pure C#-implementatie
  • Laag-niveau toegang: Precieze tekstpositionering en lettertypemetingen
  • Geheugenefficiënt: Verwerkt grote documenten met minimale overhead
  • OCR-gereed: Extraheer tekst met begrenzingsvakken voor analyse
  • MIT-licentie: Gratis voor commercieel gebruik

Ideaal voor documentanalyse, tekstextractie en PDF-inhoudsverwerking.

GitHub

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Waarom PdfPig kiezen?

  • Nauwkeurigheid: Verwerkt complexe PDF-tekstlay-outs correct
  • Prestaties: Sneller dan vergelijkbare .NET-bibliotheken
  • Transparantie: Toegang tot ruwe PDF-structuren wanneer nodig
  • Actieve ontwikkeling: Regelmatige updates sinds 2018
  • Cross-platform: Werkt op .NET Standard 2.0+

Installatie

PdfPig is beschikbaar via NuGet voor eenvoudige integratie:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systeemvereisten: .NET Standard 2.0-compatibele runtime

Codevoorbeelden

Praktische voorbeelden van PdfPig's mogelijkheden:

PdfPig-extractie

Voorbeeld 1: Basistekstextractie

Dit voorbeeld laat zien hoe u een PDF-document opent en alle tekstinhoud extraheert terwijl de leesvolgorde behouden blijft. PdfPig biedt toegang tot elke letter met zijn exacte positie in het document.

Uitvoer omvat:

  • Ruwe tekstinhoud in leesvolgorde
  • Paginanummers voor elk tekstsegment
  • Basislettertype-informatie

Voorbeeld 2: Geavanceerde positieanalyse

PdfPig excelleert in het leveren van precieze positiegegevens voor tekstelementen. Dit voorbeeld toont hoe u woorden kunt extraheren met hun begrenzingsvakken.

Voorbeeld 3: Lettertype- en metadata-extractie

Naast tekstinhoud biedt PdfPig toegang tot documentmetadata en gedetailleerde lettertype-informatie.

Geavanceerde functies

PdfPig ondersteunt professionele PDF-analyse:

  • Afbeeldingsextractie: Toegang tot ingesloten afbeeldingen:

    Afbeeldingsextractie

    
        using var document = PdfDocument.Open("bestand.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Verwerk afbeeldingsdata
            }
        }
        
    
  • Bladwijzernavigatie: Toegang tot documentoverzicht:

    Bladwijzers

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}");
        }
        
    
  • Versleutelde PDF's: Omgaan met met wachtwoord beschermde bestanden:

    Versleutelde PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("versleuteld.pdf", options);
        
    

PdfPig vs PdfSharp

5 belangrijke verschillen tussen PdfPig en PDFsharp:

  • Primaire functie: PdfPig specialiseert zich in lezen/extractie van tekst en metadata. PDFsharp richt zich op maken/bewerken van PDF's
  • Tekst vs graphics: PdfPig extraheert tekst met pixelperfecte precisie. PDFsharp is geoptimaliseerd voor tekenen van tekst/vormen
  • Documenttoegang: PdfPig analyseert bestaande PDF's, PDFsharp kan pagina's wijzigen
  • Geavanceerde functies: PdfPig onthult lettertypedetails en documentstructuur, PDFsharp ondersteunt PDF/A-standaarden
  • Gebruiksscenario's: PdfPig voor data-analyse, PDFsharp voor rapportgeneratie

Conclusie

PdfPig biedt ongeëvenaarde PDF-inhoudstoegang voor .NET-ontwikkelaars. Ideaal voor:

  • Data-extractie: Inhoud winnen uit rapporten
  • Documentanalyse: PDF-structuur begrijpen
  • Toegankelijkheid: PDF-inhoud converteren
  • Preprocessing: Voorbereiden voor OCR of ML

Met zijn focus op nauwkeurige extractie en laag geheugengebruik is PdfPig de eerste keuze voor PDF-analyse in .NET.

Vergelijkbare Producten

 Nederlands