PdfPig: Geavanceerde PDF-tekstextractie voor .NET
Lees en analyseer PDF-inhoud zonder afhankelijkheden - tekst, posities, lettertypen en metadata
Wat is PdfPig?
PdfPig is een open-source .NET-bibliotheek gericht op het extraheren van inhoud uit PDF-bestanden zonder de overhead van native afhankelijkheden. In tegenstelling tot PDF-generators specialiseert PdfPig zich in het lezen van bestaande documenten om toegang te krijgen tot tekst, lettertype-informatie, positiegegevens en documentstructuur. Het is bijzonder waardevol voor data mining, inhoudsanalyse en documentverwerkingspijplijnen.
Belangrijke voordelen van PdfPig:
- Geen afhankelijkheden: Pure C#-implementatie
- Laag-niveau toegang: Precieze tekstpositionering en lettertypemetingen
- Geheugenefficiënt: Verwerkt grote documenten met minimale overhead
- OCR-gereed: Extraheer tekst met begrenzingsvakken voor analyse
- MIT-licentie: Gratis voor commercieel gebruik
Ideaal voor documentanalyse, tekstextractie en PDF-inhoudsverwerking.
Waarom PdfPig kiezen?
- Nauwkeurigheid: Verwerkt complexe PDF-tekstlay-outs correct
- Prestaties: Sneller dan vergelijkbare .NET-bibliotheken
- Transparantie: Toegang tot ruwe PDF-structuren wanneer nodig
- Actieve ontwikkeling: Regelmatige updates sinds 2018
- Cross-platform: Werkt op .NET Standard 2.0+
Installatie
PdfPig is beschikbaar via NuGet voor eenvoudige integratie:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Systeemvereisten: .NET Standard 2.0-compatibele runtime
Codevoorbeelden
Praktische voorbeelden van PdfPig's mogelijkheden:
Voorbeeld 1: Basistekstextractie
Dit voorbeeld laat zien hoe u een PDF-document opent en alle tekstinhoud extraheert terwijl de leesvolgorde behouden blijft. PdfPig biedt toegang tot elke letter met zijn exacte positie in het document.
Uitvoer omvat:
- Ruwe tekstinhoud in leesvolgorde
- Paginanummers voor elk tekstsegment
- Basislettertype-informatie
Voorbeeld 2: Geavanceerde positieanalyse
PdfPig excelleert in het leveren van precieze positiegegevens voor tekstelementen. Dit voorbeeld toont hoe u woorden kunt extraheren met hun begrenzingsvakken.
Voorbeeld 3: Lettertype- en metadata-extractie
Naast tekstinhoud biedt PdfPig toegang tot documentmetadata en gedetailleerde lettertype-informatie.
Geavanceerde functies
PdfPig ondersteunt professionele PDF-analyse:
- Afbeeldingsextractie: Toegang tot ingesloten afbeeldingen:
Afbeeldingsextractie
using var document = PdfDocument.Open("bestand.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Verwerk afbeeldingsdata } }
- Bladwijzernavigatie: Toegang tot documentoverzicht:
Bladwijzers
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}"); }
- Versleutelde PDF's: Omgaan met met wachtwoord beschermde bestanden:
Versleutelde PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("versleuteld.pdf", options);
PdfPig vs PdfSharp
5 belangrijke verschillen tussen PdfPig en PDFsharp:
- Primaire functie: PdfPig specialiseert zich in lezen/extractie van tekst en metadata. PDFsharp richt zich op maken/bewerken van PDF's
- Tekst vs graphics: PdfPig extraheert tekst met pixelperfecte precisie. PDFsharp is geoptimaliseerd voor tekenen van tekst/vormen
- Documenttoegang: PdfPig analyseert bestaande PDF's, PDFsharp kan pagina's wijzigen
- Geavanceerde functies: PdfPig onthult lettertypedetails en documentstructuur, PDFsharp ondersteunt PDF/A-standaarden
- Gebruiksscenario's: PdfPig voor data-analyse, PDFsharp voor rapportgeneratie
Conclusie
PdfPig biedt ongeëvenaarde PDF-inhoudstoegang voor .NET-ontwikkelaars. Ideaal voor:
- Data-extractie: Inhoud winnen uit rapporten
- Documentanalyse: PDF-structuur begrijpen
- Toegankelijkheid: PDF-inhoud converteren
- Preprocessing: Voorbereiden voor OCR of ML
Met zijn focus op nauwkeurige extractie en laag geheugengebruik is PdfPig de eerste keuze voor PDF-analyse in .NET.