PdfPig: Geavanceerde PDF-tekstextractie voor .NET

Lees en analyseer PDF-inhoud zonder afhankelijkheden - tekst, posities, lettertypen en metadata

Wat is PdfPig?

PdfPig is een open-source .NET-bibliotheek gericht op het extraheren van inhoud uit PDF-bestanden zonder de overhead van native afhankelijkheden. In tegenstelling tot PDF-generators specialiseert PdfPig zich in het lezen van bestaande documenten om toegang te krijgen tot tekst, lettertype-informatie, positiegegevens en documentstructuur. Het is bijzonder waardevol voor data mining, inhoudsanalyse en documentverwerkingspijplijnen.

Belangrijke voordelen van PdfPig:

Geen afhankelijkheden: Pure C#-implementatie
Laag-niveau toegang: Precieze tekstpositionering en lettertypemetingen
Geheugenefficiënt: Verwerkt grote documenten met minimale overhead
OCR-gereed: Extraheer tekst met begrenzingsvakken voor analyse
MIT-licentie: Gratis voor commercieel gebruik

Ideaal voor documentanalyse, tekstextractie en PDF-inhoudsverwerking.

GitHub-statistieken

Naam:
Taal:
Sterren:
Vorken:
Licentie:
De opslagplaats is voor het laatst bijgewerkt op

Waarom PdfPig kiezen?

Nauwkeurigheid: Verwerkt complexe PDF-tekstlay-outs correct
Prestaties: Sneller dan vergelijkbare .NET-bibliotheken
Transparantie: Toegang tot ruwe PDF-structuren wanneer nodig
Actieve ontwikkeling: Regelmatige updates sinds 2018
Cross-platform: Werkt op .NET Standard 2.0+

Installatie

PdfPig is beschikbaar via NuGet voor eenvoudige integratie:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systeemvereisten: .NET Standard 2.0-compatibele runtime

Codevoorbeelden

Praktische voorbeelden van PdfPig's mogelijkheden:

PdfPig-extractie

Voorbeeld 1: Basistekstextractie

Dit voorbeeld laat zien hoe u een PDF-document opent en alle tekstinhoud extraheert terwijl de leesvolgorde behouden blijft. PdfPig biedt toegang tot elke letter met zijn exacte positie in het document.

Uitvoer omvat:

Ruwe tekstinhoud in leesvolgorde
Paginanummers voor elk tekstsegment
Basislettertype-informatie

Voorbeeld 2: Geavanceerde positieanalyse

PdfPig excelleert in het leveren van precieze positiegegevens voor tekstelementen. Dit voorbeeld toont hoe u woorden kunt extraheren met hun begrenzingsvakken.

Voorbeeld 3: Lettertype- en metadata-extractie

Naast tekstinhoud biedt PdfPig toegang tot documentmetadata en gedetailleerde lettertype-informatie.

Geavanceerde functies

PdfPig ondersteunt professionele PDF-analyse:

Afbeeldingsextractie: Toegang tot ingesloten afbeeldingen:

Afbeeldingsextractie


    using var document = PdfDocument.Open("bestand.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Verwerk afbeeldingsdata
        }
    }

Bladwijzernavigatie: Toegang tot documentoverzicht:

Bladwijzers


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}");
    }

Versleutelde PDF's: Omgaan met met wachtwoord beschermde bestanden:

Versleutelde PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("versleuteld.pdf", options);

PdfPig vs PdfSharp

5 belangrijke verschillen tussen PdfPig en PDFsharp:

Primaire functie: PdfPig specialiseert zich in lezen/extractie van tekst en metadata. PDFsharp richt zich op maken/bewerken van PDF's
Tekst vs graphics: PdfPig extraheert tekst met pixelperfecte precisie. PDFsharp is geoptimaliseerd voor tekenen van tekst/vormen
Documenttoegang: PdfPig analyseert bestaande PDF's, PDFsharp kan pagina's wijzigen
Geavanceerde functies: PdfPig onthult lettertypedetails en documentstructuur, PDFsharp ondersteunt PDF/A-standaarden
Gebruiksscenario's: PdfPig voor data-analyse, PDFsharp voor rapportgeneratie

Conclusie

PdfPig biedt ongeëvenaarde PDF-inhoudstoegang voor .NET-ontwikkelaars. Ideaal voor:

Data-extractie: Inhoud winnen uit rapporten
Documentanalyse: PDF-structuur begrijpen
Toegankelijkheid: PDF-inhoud converteren
Preprocessing: Voorbereiden voor OCR of ML

Met zijn focus op nauwkeurige extractie en laag geheugengebruik is PdfPig de eerste keuze voor PDF-analyse in .NET.