1. Produkter
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Avancerad PDF-textutvinning för .NET

Läs och analysera PDF-innehåll utan beroenden - text, positioner, typsnitt och metadata

Vad är PdfPig?

PdfPig är ett .NET-bibliotek med öppen källkod som fokuserar på att extrahera innehåll från PDF-filer utan externa beroenden. Till skillnad från PDF-generatorer specialiserar sig PdfPig på att läsa befintliga dokument för att komma åt text, teckensnittsinformation, positionsdata och dokumentstruktur. Särskilt värdefullt för datautvinning, innehållsanalys och dokumentbehandlingspipelines.

Nyckelfördelar med PdfPig:

  • Inga beroenden: Ren C#-implementation
  • Lågnivååtkomst: Exakt textpositionering och teckensnittsmått
  • Minneseffektiv: Hanterar stora dokument med minimal overhead
  • OCR-redo: Extrahera text med begränsningsramar för analys
  • MIT-licens: Gratis för kommersiell användning

Idealisk för dokumentanalys, textextrahering och PDF-innehållsbehandling.

GitHub

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Varför välja PdfPig?

  • Noggrannhet: Hanterar komplexa PDF-textlayouter korrekt
  • Prestanda: Snabbare än liknande .NET-bibliotek
  • Transparens: Åtkomst till råa PDF-strukturer vid behov
  • Aktiv utveckling: Regelbundna uppdateringar sedan 2018
  • Plattformsoberoende: Fungerar på .NET Standard 2.0+

Installation

PdfPig finns tillgängligt via NuGet för enkel integration:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemkrav: .NET Standard 2.0-kompatibel körningsmiljö

Kodexempel

Praktiska exempel på PdfPigs funktionalitet:

PdfPig-extrahering

Exempel 1: Grundläggande textextrahering

Detta exempel visar hur man öppnar ett PDF-dokument och extraherar all textinnehåll med bevarad läsordning. PdfPig ger tillgång till varje tecken med dess exakta position i dokumentet.

Resultat inkluderar:

  • Rå textinnehåll i läsordning
  • Sidnummer för varje textsegment
  • Grundläggande teckensnittsinformation

Exempel 2: Avancerad positionsanalys

PdfPig utmärker sig på att ge exakta positionsdata för textelement. Detta exempel visar hur man extraherar ord med deras begränsningsramar.

Exempel 3: Teckensnitts- och metadataextrahering

Förutom textinnehåll ger PdfPig tillgång till dokumentmetadata och detaljerad teckensnittsinformation.

Avancerade funktioner

PdfPig stödjer professionell PDF-analys:

  • Bildextrahering: Åtkomst till inbäddade bilder:

    Bildextrahering

    
        using var document = PdfDocument.Open("fil.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Bearbeta bilddata
            }
        }
        
    
  • Bokmärkesnavigering: Åtkomst till dokumentöversikt:

    Bokmärken

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Sida {bookmark.PageNumber}");
        }
        
    
  • Krypterade PDF:er: Hantera lösenordsskyddade filer:

    Krypterad PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("krypterad.pdf", options);
        
    

PdfPig vs PdfSharp

5 viktiga skillnader mellan PdfPig och PDFsharp:

  • Primär funktion: PdfPig specialiserar sig på läsning/extrahering av text och metadata. PDFsharp fokuserar på att skapa/redigera PDF-dokument
  • Text vs grafik: PdfPig extraherar text med pixelperfekt precision. PDFsharp är optimerad för att rita text/former
  • Dokumentåtkomst: PdfPig analyserar befintliga PDF-filer, PDFsharp kan modifiera sidor
  • Avancerade funktioner: PdfPig avslöjar teckensnittsdetaljer och dokumentstruktur, PDFsharp stöder PDF/A-standarder
  • Användningsfall: PdfPig för datautvinning, PDFsharp för rapportgenerering

Sammanfattning

PdfPig ger oöverträffad åtkomst till PDF-innehåll för .NET-utvecklare. Idealisk för:

  • Datautvinning: Extrahera innehåll från rapporter
  • Dokumentanalys: Förstå PDF-struktur
  • Tillgänglighet: Konvertera PDF-innehåll till andra format
  • Förbehandling: Förbereda dokument för OCR eller ML

Med sitt fokus på exakt extrahering och lågt minnesanvändande är PdfPig det bästa valet för PDF-analys i .NET.

Liknande Produkter

 Swedish