PdfPig: Avansert PDF-tekstuttrekk for .NET

Les og analyser PDF-innhold uten avhengigheter - tekst, posisjoner, skrifter og metadata

Hva er PdfPig?

PdfPig er et åpen kildekode .NET-bibliotek som fokuserer på å trekke ut innhold fra PDF-filer uten eksterne avhengigheter. I motsetning til PDF-generatorer spesialiserer PdfPig seg på å lese eksisterende dokumenter for å få tilgang til tekst, skriftinformasjon, posisjonsdata og dokumentstruktur. Det er spesielt nyttig for datautvinning, innholdsanalyse og dokumentbehandlingspipelines.

Nøkkelfordeler med PdfPig:

Ingen avhengigheter: Ren C#-implementering
Lavnivåtilgang: Presis tekstposisjonering og skriftmålinger
Minneeffektiv: Håndterer store dokumenter med minimal overhead
OCR-klar: Trekk ut tekst med avgrensningsbokser for analyse
MIT-lisens: Gratis for kommersiell bruk

Ideell for dokumentanalyse, tekstuttrekk og PDF-innholdsbehandling.

GitHub-statistikk

Navn:
Språk:
Stjerner:
Gafler:
Tillatelse:
Repository ble sist oppdatert kl

Hvorfor velge PdfPig?

Nøyaktighet: Håndterer komplekse PDF-tekstlayouter korrekt
Ytelse: Raskere enn lignende .NET-biblioteker
Åpenhet: Tilgang til rå PDF-strukturer når nødvendig
Aktiv utvikling: Regelmessige oppdateringer siden 2018
Tverrplattform: Fungerer på .NET Standard 2.0+

Installasjon

PdfPig er tilgjengelig via NuGet for enkel integrasjon:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systemkrav: .NET Standard 2.0-kompatibel runtime

Kodeeksempler

Praktiske eksempler på PdfPigs funksjonalitet:

PdfPig-uttrekk

Eksempel 1: Grunnleggende tekstuttrekk

Dette eksemplet viser hvordan du åpner et PDF-dokument og trekker ut all tekstinnhold mens leserekkefølgen bevares. PdfPig gir tilgang til hver enkelt bokstav med dens eksakte posisjon i dokumentet.

Utdata inkluderer:

Rå tekstinnhold i leserekkefølge
Sidenumre for hvert tekstsegment
Grunnleggende skriftinformasjon

Eksempel 2: Avansert posisjonsanalyse

PdfPig utmerker seg på å gi presise posisjonsdata for tekstelementer. Dette eksemplet viser hvordan du trekker ut ord med deres avgrensningsbokser.

Eksempel 3: Skrift- og metadatauttrekk

Utover tekstinnhold gir PdfPig tilgang til dokumentmetadata og detaljert skriftinformasjon.

Avanserte funksjoner

PdfPig støtter profesjonell PDF-analyse:

Bildeuttrekk: Tilgang til innebygde bilder:

Bildeuttrekk


    using var document = PdfDocument.Open("fil.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Behandle bildedata
        }
    }

Bokmerkenavigasjon: Tilgang til dokumentoversikt:

Bokmerker


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Side {bookmark.PageNumber}");
    }

Krypterte PDF-er: Håndter passordbeskyttede filer:

Kryptert PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("kryptert.pdf", options);

PdfPig vs PdfSharp

5 viktige forskjeller mellom PdfPig og PDFsharp:

Primærfunksjon: PdfPig spesialiserer seg på lesing/uttrekk av tekst og metadata. PDFsharp fokuserer på å opprette/redigere PDF-dokumenter
Tekst vs grafikk: PdfPig trekker ut tekst med pikselperfekt presisjon. PDFsharp er optimalisert for tegning av tekst/former
Dokumenttilgang: PdfPig analyserer eksisterende PDF-er, PDFsharp kan endre sider
Avanserte funksjoner: PdfPig avslører skriftdetaljer og dokumentstruktur, PDFsharp støtter PDF/A-standarder
Bruksscenarier: PdfPig for dataanalyse, PDFsharp for rapportgenerering

Konklusjon

PdfPig gir enestående PDF-innholdstilgang for .NET-utviklere. Ideell for:

Datauttrekk: Utvinne innhold fra rapporter
Dokumentanalyse: Forstå PDF-struktur
Tilgjengelighet: Konvertere PDF-innhold
Forbehandling: Forberede for OCR eller ML

Med sitt fokus på nøyaktig uttrekk og lavt minneforbruk er PdfPig det foretrukne valget for PDF-analyse i .NET.