PdfPig: Avancerad PDF-textutvinning för .NET

Läs och analysera PDF-innehåll utan beroenden - text, positioner, typsnitt och metadata

Vad är PdfPig?

PdfPig är ett .NET-bibliotek med öppen källkod som fokuserar på att extrahera innehåll från PDF-filer utan externa beroenden. Till skillnad från PDF-generatorer specialiserar sig PdfPig på att läsa befintliga dokument för att komma åt text, teckensnittsinformation, positionsdata och dokumentstruktur. Särskilt värdefullt för datautvinning, innehållsanalys och dokumentbehandlingspipelines.

Nyckelfördelar med PdfPig:

Inga beroenden: Ren C#-implementation
Lågnivååtkomst: Exakt textpositionering och teckensnittsmått
Minneseffektiv: Hanterar stora dokument med minimal overhead
OCR-redo: Extrahera text med begränsningsramar för analys
MIT-licens: Gratis för kommersiell användning

Idealisk för dokumentanalys, textextrahering och PDF-innehållsbehandling.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Varför välja PdfPig?

Noggrannhet: Hanterar komplexa PDF-textlayouter korrekt
Prestanda: Snabbare än liknande .NET-bibliotek
Transparens: Åtkomst till råa PDF-strukturer vid behov
Aktiv utveckling: Regelbundna uppdateringar sedan 2018
Plattformsoberoende: Fungerar på .NET Standard 2.0+

Installation

PdfPig finns tillgängligt via NuGet för enkel integration:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemkrav: .NET Standard 2.0-kompatibel körningsmiljö

Kodexempel

Praktiska exempel på PdfPigs funktionalitet:

PdfPig-extrahering

Exempel 1: Grundläggande textextrahering

Detta exempel visar hur man öppnar ett PDF-dokument och extraherar all textinnehåll med bevarad läsordning. PdfPig ger tillgång till varje tecken med dess exakta position i dokumentet.

Resultat inkluderar:

Rå textinnehåll i läsordning
Sidnummer för varje textsegment
Grundläggande teckensnittsinformation

Exempel 2: Avancerad positionsanalys

PdfPig utmärker sig på att ge exakta positionsdata för textelement. Detta exempel visar hur man extraherar ord med deras begränsningsramar.

Exempel 3: Teckensnitts- och metadataextrahering

Förutom textinnehåll ger PdfPig tillgång till dokumentmetadata och detaljerad teckensnittsinformation.

Avancerade funktioner

PdfPig stödjer professionell PDF-analys:

Bildextrahering: Åtkomst till inbäddade bilder:

Bildextrahering


    using var document = PdfDocument.Open("fil.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Bearbeta bilddata
        }
    }

Bokmärkesnavigering: Åtkomst till dokumentöversikt:

Bokmärken


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Sida {bookmark.PageNumber}");
    }

Krypterade PDF:er: Hantera lösenordsskyddade filer:

Krypterad PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("krypterad.pdf", options);

PdfPig vs PdfSharp

5 viktiga skillnader mellan PdfPig och PDFsharp:

Primär funktion: PdfPig specialiserar sig på läsning/extrahering av text och metadata. PDFsharp fokuserar på att skapa/redigera PDF-dokument
Text vs grafik: PdfPig extraherar text med pixelperfekt precision. PDFsharp är optimerad för att rita text/former
Dokumentåtkomst: PdfPig analyserar befintliga PDF-filer, PDFsharp kan modifiera sidor
Avancerade funktioner: PdfPig avslöjar teckensnittsdetaljer och dokumentstruktur, PDFsharp stöder PDF/A-standarder
Användningsfall: PdfPig för datautvinning, PDFsharp för rapportgenerering

Sammanfattning

PdfPig ger oöverträffad åtkomst till PDF-innehåll för .NET-utvecklare. Idealisk för:

Datautvinning: Extrahera innehåll från rapporter
Dokumentanalys: Förstå PDF-struktur
Tillgänglighet: Konvertera PDF-innehåll till andra format
Förbehandling: Förbereda dokument för OCR eller ML

Med sitt fokus på exakt extrahering och lågt minnesanvändande är PdfPig det bästa valet för PDF-analys i .NET.