PdfPig: Avancerad PDF-textutvinning för .NET
Läs och analysera PDF-innehåll utan beroenden - text, positioner, typsnitt och metadata
Vad är PdfPig?
PdfPig är ett .NET-bibliotek med öppen källkod som fokuserar på att extrahera innehåll från PDF-filer utan externa beroenden. Till skillnad från PDF-generatorer specialiserar sig PdfPig på att läsa befintliga dokument för att komma åt text, teckensnittsinformation, positionsdata och dokumentstruktur. Särskilt värdefullt för datautvinning, innehållsanalys och dokumentbehandlingspipelines.
Nyckelfördelar med PdfPig:
- Inga beroenden: Ren C#-implementation
- Lågnivååtkomst: Exakt textpositionering och teckensnittsmått
- Minneseffektiv: Hanterar stora dokument med minimal overhead
- OCR-redo: Extrahera text med begränsningsramar för analys
- MIT-licens: Gratis för kommersiell användning
Idealisk för dokumentanalys, textextrahering och PDF-innehållsbehandling.
Varför välja PdfPig?
- Noggrannhet: Hanterar komplexa PDF-textlayouter korrekt
- Prestanda: Snabbare än liknande .NET-bibliotek
- Transparens: Åtkomst till råa PDF-strukturer vid behov
- Aktiv utveckling: Regelbundna uppdateringar sedan 2018
- Plattformsoberoende: Fungerar på .NET Standard 2.0+
Installation
PdfPig finns tillgängligt via NuGet för enkel integration:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Systemkrav: .NET Standard 2.0-kompatibel körningsmiljö
Kodexempel
Praktiska exempel på PdfPigs funktionalitet:
Exempel 1: Grundläggande textextrahering
Detta exempel visar hur man öppnar ett PDF-dokument och extraherar all textinnehåll med bevarad läsordning. PdfPig ger tillgång till varje tecken med dess exakta position i dokumentet.
Resultat inkluderar:
- Rå textinnehåll i läsordning
- Sidnummer för varje textsegment
- Grundläggande teckensnittsinformation
Exempel 2: Avancerad positionsanalys
PdfPig utmärker sig på att ge exakta positionsdata för textelement. Detta exempel visar hur man extraherar ord med deras begränsningsramar.
Exempel 3: Teckensnitts- och metadataextrahering
Förutom textinnehåll ger PdfPig tillgång till dokumentmetadata och detaljerad teckensnittsinformation.
Avancerade funktioner
PdfPig stödjer professionell PDF-analys:
- Bildextrahering: Åtkomst till inbäddade bilder:
Bildextrahering
using var document = PdfDocument.Open("fil.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Bearbeta bilddata } }
- Bokmärkesnavigering: Åtkomst till dokumentöversikt:
Bokmärken
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Sida {bookmark.PageNumber}"); }
- Krypterade PDF:er: Hantera lösenordsskyddade filer:
Krypterad PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("krypterad.pdf", options);
PdfPig vs PdfSharp
5 viktiga skillnader mellan PdfPig och PDFsharp:
- Primär funktion: PdfPig specialiserar sig på läsning/extrahering av text och metadata. PDFsharp fokuserar på att skapa/redigera PDF-dokument
- Text vs grafik: PdfPig extraherar text med pixelperfekt precision. PDFsharp är optimerad för att rita text/former
- Dokumentåtkomst: PdfPig analyserar befintliga PDF-filer, PDFsharp kan modifiera sidor
- Avancerade funktioner: PdfPig avslöjar teckensnittsdetaljer och dokumentstruktur, PDFsharp stöder PDF/A-standarder
- Användningsfall: PdfPig för datautvinning, PDFsharp för rapportgenerering
Sammanfattning
PdfPig ger oöverträffad åtkomst till PDF-innehåll för .NET-utvecklare. Idealisk för:
- Datautvinning: Extrahera innehåll från rapporter
- Dokumentanalys: Förstå PDF-struktur
- Tillgänglighet: Konvertera PDF-innehåll till andra format
- Förbehandling: Förbereda dokument för OCR eller ML
Med sitt fokus på exakt extrahering och lågt minnesanvändande är PdfPig det bästa valet för PDF-analys i .NET.