1. Produkter
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Avansert PDF-tekstuttrekk for .NET

Les og analyser PDF-innhold uten avhengigheter - tekst, posisjoner, skrifter og metadata

Hva er PdfPig?

PdfPig er et åpen kildekode .NET-bibliotek som fokuserer på å trekke ut innhold fra PDF-filer uten eksterne avhengigheter. I motsetning til PDF-generatorer spesialiserer PdfPig seg på å lese eksisterende dokumenter for å få tilgang til tekst, skriftinformasjon, posisjonsdata og dokumentstruktur. Det er spesielt nyttig for datautvinning, innholdsanalyse og dokumentbehandlingspipelines.

Nøkkelfordeler med PdfPig:

  • Ingen avhengigheter: Ren C#-implementering
  • Lavnivåtilgang: Presis tekstposisjonering og skriftmålinger
  • Minneeffektiv: Håndterer store dokumenter med minimal overhead
  • OCR-klar: Trekk ut tekst med avgrensningsbokser for analyse
  • MIT-lisens: Gratis for kommersiell bruk

Ideell for dokumentanalyse, tekstuttrekk og PDF-innholdsbehandling.

GitHub

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Hvorfor velge PdfPig?

  • Nøyaktighet: Håndterer komplekse PDF-tekstlayouter korrekt
  • Ytelse: Raskere enn lignende .NET-biblioteker
  • Åpenhet: Tilgang til rå PDF-strukturer når nødvendig
  • Aktiv utvikling: Regelmessige oppdateringer siden 2018
  • Tverrplattform: Fungerer på .NET Standard 2.0+

Installasjon

PdfPig er tilgjengelig via NuGet for enkel integrasjon:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemkrav: .NET Standard 2.0-kompatibel runtime

Kodeeksempler

Praktiske eksempler på PdfPigs funksjonalitet:

PdfPig-uttrekk

Eksempel 1: Grunnleggende tekstuttrekk

Dette eksemplet viser hvordan du åpner et PDF-dokument og trekker ut all tekstinnhold mens leserekkefølgen bevares. PdfPig gir tilgang til hver enkelt bokstav med dens eksakte posisjon i dokumentet.

Utdata inkluderer:

  • Rå tekstinnhold i leserekkefølge
  • Sidenumre for hvert tekstsegment
  • Grunnleggende skriftinformasjon

Eksempel 2: Avansert posisjonsanalyse

PdfPig utmerker seg på å gi presise posisjonsdata for tekstelementer. Dette eksemplet viser hvordan du trekker ut ord med deres avgrensningsbokser.

Eksempel 3: Skrift- og metadatauttrekk

Utover tekstinnhold gir PdfPig tilgang til dokumentmetadata og detaljert skriftinformasjon.

Avanserte funksjoner

PdfPig støtter profesjonell PDF-analyse:

  • Bildeuttrekk: Tilgang til innebygde bilder:

    Bildeuttrekk

    
        using var document = PdfDocument.Open("fil.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Behandle bildedata
            }
        }
        
    
  • Bokmerkenavigasjon: Tilgang til dokumentoversikt:

    Bokmerker

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Side {bookmark.PageNumber}");
        }
        
    
  • Krypterte PDF-er: Håndter passordbeskyttede filer:

    Kryptert PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("kryptert.pdf", options);
        
    

PdfPig vs PdfSharp

5 viktige forskjeller mellom PdfPig og PDFsharp:

  • Primærfunksjon: PdfPig spesialiserer seg på lesing/uttrekk av tekst og metadata. PDFsharp fokuserer på å opprette/redigere PDF-dokumenter
  • Tekst vs grafikk: PdfPig trekker ut tekst med pikselperfekt presisjon. PDFsharp er optimalisert for tegning av tekst/former
  • Dokumenttilgang: PdfPig analyserer eksisterende PDF-er, PDFsharp kan endre sider
  • Avanserte funksjoner: PdfPig avslører skriftdetaljer og dokumentstruktur, PDFsharp støtter PDF/A-standarder
  • Bruksscenarier: PdfPig for dataanalyse, PDFsharp for rapportgenerering

Konklusjon

PdfPig gir enestående PDF-innholdstilgang for .NET-utviklere. Ideell for:

  • Datauttrekk: Utvinne innhold fra rapporter
  • Dokumentanalyse: Forstå PDF-struktur
  • Tilgjengelighet: Konvertere PDF-innhold
  • Forbehandling: Forberede for OCR eller ML

Med sitt fokus på nøyaktig uttrekk og lavt minneforbruk er PdfPig det foretrukne valget for PDF-analyse i .NET.

Lignende Produkter

 Norsk