PdfPig: Išplėstinis PDF teksto išgavimas .NET

Skaitykite ir analizuokite PDF turinį be priklausomybių - tekstas, pozicijos, šriftai ir metaduomenys

Kas yra PdfPig?

PdfPig yra atviro kodo .NET biblioteka, skirta išgauti turinį iš PDF failų be jokių priklausomybių. Skirtingai nei PDF generatoriai, PdfPig specializuojasi esamų dokumentų skaitymui, kad pasiektų tekstą, šrifto informaciją, pozicijos duomenis ir dokumento struktūrą. Ypač naudinga duomenų gavybai, turinio analizei ir dokumentų apdorojimo procesams.

Pagrindiniai PdfPig privalumai:

Nėra priklausomybių: Grynai C# implementacija
Žemo lygio prieiga: Tikslus teksto pozicionavimas ir šrifto metrika
Atminties efektyvumas: Tvarko didelius dokumentus su minimalia papildoma apkrova
Paruoštas OCR: Išgauti tekstą su ribojančiais langeliais analizei
MIT licencija: Nemokamas komerciniam naudojimui

Idealus dokumentų analizei, teksto išgavimui ir PDF turinio apdorojimui.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kodėl rinktis PdfPig?

Tikslumas: Teisingai tvarko sudėtingus PDF teksto išdėstymus
Veikla: Sparčiau nei panašios .NET bibliotekos bandymuose
Sklaidumas: Prieiga prie žaliųjų PDF struktūrų, kai reikia
Aktyvus plėtojimas: Nuolatiniai atnaujinimai nuo 2018 m.
Kelių platformų: Veikia su .NET Standard 2.0+

Diegimas

PdfPig pasiekiamas per NuGet paprastam integravimui:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistemos reikalavimai: .NET Standard 2.0 suderinama vykdymo aplinka

Kodo pavyzdžiai

Praktiniai PdfPig galimybių pavyzdžiai:

PdfPig išgavimas

1 pavyzdys: Pagrindinis teksto išgavimas

Šis pavyzdys parodo, kaip atidaryti PDF dokumentą ir išgauti visą teksto turinį išlaikant skaitymo tvarką. PdfPig suteikia prieigą prie kiekvienos raidės su tiksliąja jos pozicija dokumente, leisdamas pažangią išdėstymo analizę, viršijančią paprastą teksto išgavimą.

Išvestis apima:

Žaliąjį teksto turinį skaitymo tvarka
Puslapių numerius kiekvienam teksto segmentui
Pagrindinę šrifto informaciją

2 pavyzdys: Išplėstinė pozicijos analizė

PdfPig puikiai teikia tikslias pozicijos duomenis teksto elementams. Šis pavyzdys parodo, kaip išgauti žodžius su jų ribojančiais langeliais, leidžiant atlikti užduotis kaip lentelių aptikimas, formų apdorojimas ir turinio sričių analizė.

3 pavyzdys: Šrifto ir metaduomenų išgavimas

Be teksto turinio, PdfPig suteikia prieigą prie dokumento metaduomenų ir išsamių šrifto informacijos. Šis pavyzdys parodo dokumento savybių išgavimą ir šrifto naudojimo analizę visame PDF.

Išplėstinės funkcijos

PdfPig palaiko profesionalią PDF analizę:

Vaizdų išgavimas: Prieiga prie įterptų vaizdų:

Vaizdų išgavimas


    using var document = PdfDocument.Open("failas.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Vaizdo duomenų apdorojimas
        }
    }

Žymių naršymas: Prieiga prie dokumento struktūros:

Žymės


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Puslapis {bookmark.PageNumber}");
    }

Šifruoti PDF: Slaptažodžiu apsaugotų failų tvarkymas:

Šifruotas PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("šifruotas.pdf", options);

PdfPig vs PdfSharp

Štai 5 pagrindiniai skirtumai tarp PdfPig ir PDFsharp:

Pagrindinė funkcija:PdfPig specializuojasi teksto, pozicijų ir metaduomenų skaityme/išgavime. PDFsharp orientuotas į PDF dokumentų kūrimą/redagavimą
Tekstas vs grafika:PdfPig išgauna tekstą pikselių tikslumu (įskaitant koordinates). PDFsharp optimizuotas teksto/figūrų piešimui (ataskaitos, sąskaitos, formos)
Dokumento prieiga:PdfPig analizuoja esamus PDF, o PDFsharp gali keisti puslapius, pridėti turinį, sujungti failus
Išplėstinės funkcijosPdfPig atskleidžia šrifto detales, ribojančius langelius ir dokumento struktūrą, o PDFsharp palaiko PDF/A standartus, vaizdus ir šifravimą
Naudojimo atvejaiPdfPig tinka duomenų gavybai, OCR pirminiam apdorojimui, turinio analizei, o PDFsharp - ataskaitų generavimui, PDF manipuliavimui, formų užpildymui

Išvada

PdfPig suteikia neprilygstamą prieigą prie PDF turinio .NET kūrėjams. Idealus:

Duomenų išgavimui: Turinio gavybai iš ataskaitų ir dokumentų
Dokumentų analizei: PDF struktūros ir išdėstymo supratimui
Prieinamumui: PDF turinio konvertavimui į kitus formatus
Pirminiam apdorojimui: Dokumentų paruošimui OCR arba ML

Sutelkdamas dėmesį į tikslų turinio išgavimą ir mažą atminties naudojimą, PdfPig yra pirmasis pasirinkimas PDF analizei .NET aplinkoje.