PdfPig: Išplėstinis PDF teksto išgavimas .NET
Skaitykite ir analizuokite PDF turinį be priklausomybių - tekstas, pozicijos, šriftai ir metaduomenys
Kas yra PdfPig?
PdfPig yra atviro kodo .NET biblioteka, skirta išgauti turinį iš PDF failų be jokių priklausomybių. Skirtingai nei PDF generatoriai, PdfPig specializuojasi esamų dokumentų skaitymui, kad pasiektų tekstą, šrifto informaciją, pozicijos duomenis ir dokumento struktūrą. Ypač naudinga duomenų gavybai, turinio analizei ir dokumentų apdorojimo procesams.
Pagrindiniai PdfPig privalumai:
- Nėra priklausomybių: Grynai C# implementacija
- Žemo lygio prieiga: Tikslus teksto pozicionavimas ir šrifto metrika
- Atminties efektyvumas: Tvarko didelius dokumentus su minimalia papildoma apkrova
- Paruoštas OCR: Išgauti tekstą su ribojančiais langeliais analizei
- MIT licencija: Nemokamas komerciniam naudojimui
Idealus dokumentų analizei, teksto išgavimui ir PDF turinio apdorojimui.
Kodėl rinktis PdfPig?
- Tikslumas: Teisingai tvarko sudėtingus PDF teksto išdėstymus
- Veikla: Sparčiau nei panašios .NET bibliotekos bandymuose
- Sklaidumas: Prieiga prie žaliųjų PDF struktūrų, kai reikia
- Aktyvus plėtojimas: Nuolatiniai atnaujinimai nuo 2018 m.
- Kelių platformų: Veikia su .NET Standard 2.0+
Diegimas
PdfPig pasiekiamas per NuGet paprastam integravimui:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Sistemos reikalavimai: .NET Standard 2.0 suderinama vykdymo aplinka
Kodo pavyzdžiai
Praktiniai PdfPig galimybių pavyzdžiai:
1 pavyzdys: Pagrindinis teksto išgavimas
Šis pavyzdys parodo, kaip atidaryti PDF dokumentą ir išgauti visą teksto turinį išlaikant skaitymo tvarką. PdfPig suteikia prieigą prie kiekvienos raidės su tiksliąja jos pozicija dokumente, leisdamas pažangią išdėstymo analizę, viršijančią paprastą teksto išgavimą.
Išvestis apima:
- Žaliąjį teksto turinį skaitymo tvarka
- Puslapių numerius kiekvienam teksto segmentui
- Pagrindinę šrifto informaciją
2 pavyzdys: Išplėstinė pozicijos analizė
PdfPig puikiai teikia tikslias pozicijos duomenis teksto elementams. Šis pavyzdys parodo, kaip išgauti žodžius su jų ribojančiais langeliais, leidžiant atlikti užduotis kaip lentelių aptikimas, formų apdorojimas ir turinio sričių analizė.
3 pavyzdys: Šrifto ir metaduomenų išgavimas
Be teksto turinio, PdfPig suteikia prieigą prie dokumento metaduomenų ir išsamių šrifto informacijos. Šis pavyzdys parodo dokumento savybių išgavimą ir šrifto naudojimo analizę visame PDF.
Išplėstinės funkcijos
PdfPig palaiko profesionalią PDF analizę:
- Vaizdų išgavimas: Prieiga prie įterptų vaizdų:
Vaizdų išgavimas
using var document = PdfDocument.Open("failas.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Vaizdo duomenų apdorojimas } }
- Žymių naršymas: Prieiga prie dokumento struktūros:
Žymės
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Puslapis {bookmark.PageNumber}"); }
- Šifruoti PDF: Slaptažodžiu apsaugotų failų tvarkymas:
Šifruotas PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("šifruotas.pdf", options);
PdfPig vs PdfSharp
Štai 5 pagrindiniai skirtumai tarp PdfPig ir PDFsharp:
- Pagrindinė funkcija:PdfPig specializuojasi teksto, pozicijų ir metaduomenų skaityme/išgavime. PDFsharp orientuotas į PDF dokumentų kūrimą/redagavimą
- Tekstas vs grafika:PdfPig išgauna tekstą pikselių tikslumu (įskaitant koordinates). PDFsharp optimizuotas teksto/figūrų piešimui (ataskaitos, sąskaitos, formos)
- Dokumento prieiga:PdfPig analizuoja esamus PDF, o PDFsharp gali keisti puslapius, pridėti turinį, sujungti failus
- Išplėstinės funkcijosPdfPig atskleidžia šrifto detales, ribojančius langelius ir dokumento struktūrą, o PDFsharp palaiko PDF/A standartus, vaizdus ir šifravimą
- Naudojimo atvejaiPdfPig tinka duomenų gavybai, OCR pirminiam apdorojimui, turinio analizei, o PDFsharp - ataskaitų generavimui, PDF manipuliavimui, formų užpildymui
Išvada
PdfPig suteikia neprilygstamą prieigą prie PDF turinio .NET kūrėjams. Idealus:
- Duomenų išgavimui: Turinio gavybai iš ataskaitų ir dokumentų
- Dokumentų analizei: PDF struktūros ir išdėstymo supratimui
- Prieinamumui: PDF turinio konvertavimui į kitus formatus
- Pirminiam apdorojimui: Dokumentų paruošimui OCR arba ML
Sutelkdamas dėmesį į tikslų turinio išgavimą ir mažą atminties naudojimą, PdfPig yra pirmasis pasirinkimas PDF analizei .NET aplinkoje.