PdfPig: Avansert PDF-tekstuttrekk for .NET
Les og analyser PDF-innhold uten avhengigheter - tekst, posisjoner, skrifter og metadata
Hva er PdfPig?
PdfPig er et åpen kildekode .NET-bibliotek som fokuserer på å trekke ut innhold fra PDF-filer uten eksterne avhengigheter. I motsetning til PDF-generatorer spesialiserer PdfPig seg på å lese eksisterende dokumenter for å få tilgang til tekst, skriftinformasjon, posisjonsdata og dokumentstruktur. Det er spesielt nyttig for datautvinning, innholdsanalyse og dokumentbehandlingspipelines.
Nøkkelfordeler med PdfPig:
- Ingen avhengigheter: Ren C#-implementering
- Lavnivåtilgang: Presis tekstposisjonering og skriftmålinger
- Minneeffektiv: Håndterer store dokumenter med minimal overhead
- OCR-klar: Trekk ut tekst med avgrensningsbokser for analyse
- MIT-lisens: Gratis for kommersiell bruk
Ideell for dokumentanalyse, tekstuttrekk og PDF-innholdsbehandling.
Hvorfor velge PdfPig?
- Nøyaktighet: Håndterer komplekse PDF-tekstlayouter korrekt
- Ytelse: Raskere enn lignende .NET-biblioteker
- Åpenhet: Tilgang til rå PDF-strukturer når nødvendig
- Aktiv utvikling: Regelmessige oppdateringer siden 2018
- Tverrplattform: Fungerer på .NET Standard 2.0+
Installasjon
PdfPig er tilgjengelig via NuGet for enkel integrasjon:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Systemkrav: .NET Standard 2.0-kompatibel runtime
Kodeeksempler
Praktiske eksempler på PdfPigs funksjonalitet:
Eksempel 1: Grunnleggende tekstuttrekk
Dette eksemplet viser hvordan du åpner et PDF-dokument og trekker ut all tekstinnhold mens leserekkefølgen bevares. PdfPig gir tilgang til hver enkelt bokstav med dens eksakte posisjon i dokumentet.
Utdata inkluderer:
- Rå tekstinnhold i leserekkefølge
- Sidenumre for hvert tekstsegment
- Grunnleggende skriftinformasjon
Eksempel 2: Avansert posisjonsanalyse
PdfPig utmerker seg på å gi presise posisjonsdata for tekstelementer. Dette eksemplet viser hvordan du trekker ut ord med deres avgrensningsbokser.
Eksempel 3: Skrift- og metadatauttrekk
Utover tekstinnhold gir PdfPig tilgang til dokumentmetadata og detaljert skriftinformasjon.
Avanserte funksjoner
PdfPig støtter profesjonell PDF-analyse:
- Bildeuttrekk: Tilgang til innebygde bilder:
Bildeuttrekk
using var document = PdfDocument.Open("fil.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Behandle bildedata } }
- Bokmerkenavigasjon: Tilgang til dokumentoversikt:
Bokmerker
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Side {bookmark.PageNumber}"); }
- Krypterte PDF-er: Håndter passordbeskyttede filer:
Kryptert PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("kryptert.pdf", options);
PdfPig vs PdfSharp
5 viktige forskjeller mellom PdfPig og PDFsharp:
- Primærfunksjon: PdfPig spesialiserer seg på lesing/uttrekk av tekst og metadata. PDFsharp fokuserer på å opprette/redigere PDF-dokumenter
- Tekst vs grafikk: PdfPig trekker ut tekst med pikselperfekt presisjon. PDFsharp er optimalisert for tegning av tekst/former
- Dokumenttilgang: PdfPig analyserer eksisterende PDF-er, PDFsharp kan endre sider
- Avanserte funksjoner: PdfPig avslører skriftdetaljer og dokumentstruktur, PDFsharp støtter PDF/A-standarder
- Bruksscenarier: PdfPig for dataanalyse, PDFsharp for rapportgenerering
Konklusjon
PdfPig gir enestående PDF-innholdstilgang for .NET-utviklere. Ideell for:
- Datauttrekk: Utvinne innhold fra rapporter
- Dokumentanalyse: Forstå PDF-struktur
- Tilgjengelighet: Konvertere PDF-innhold
- Forbehandling: Forberede for OCR eller ML
Med sitt fokus på nøyaktig uttrekk og lavt minneforbruk er PdfPig det foretrukne valget for PDF-analyse i .NET.