1. Products
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Išplėstinis PDF teksto išgavimas .NET

Skaitykite ir analizuokite PDF turinį be priklausomybių - tekstas, pozicijos, šriftai ir metaduomenys

Kas yra PdfPig?

PdfPig yra atviro kodo .NET biblioteka, skirta išgauti turinį iš PDF failų be jokių priklausomybių. Skirtingai nei PDF generatoriai, PdfPig specializuojasi esamų dokumentų skaitymui, kad pasiektų tekstą, šrifto informaciją, pozicijos duomenis ir dokumento struktūrą. Ypač naudinga duomenų gavybai, turinio analizei ir dokumentų apdorojimo procesams.

Pagrindiniai PdfPig privalumai:

  • Nėra priklausomybių: Grynai C# implementacija
  • Žemo lygio prieiga: Tikslus teksto pozicionavimas ir šrifto metrika
  • Atminties efektyvumas: Tvarko didelius dokumentus su minimalia papildoma apkrova
  • Paruoštas OCR: Išgauti tekstą su ribojančiais langeliais analizei
  • MIT licencija: Nemokamas komerciniam naudojimui

Idealus dokumentų analizei, teksto išgavimui ir PDF turinio apdorojimui.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kodėl rinktis PdfPig?

  • Tikslumas: Teisingai tvarko sudėtingus PDF teksto išdėstymus
  • Veikla: Sparčiau nei panašios .NET bibliotekos bandymuose
  • Sklaidumas: Prieiga prie žaliųjų PDF struktūrų, kai reikia
  • Aktyvus plėtojimas: Nuolatiniai atnaujinimai nuo 2018 m.
  • Kelių platformų: Veikia su .NET Standard 2.0+

Diegimas

PdfPig pasiekiamas per NuGet paprastam integravimui:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistemos reikalavimai: .NET Standard 2.0 suderinama vykdymo aplinka

Kodo pavyzdžiai

Praktiniai PdfPig galimybių pavyzdžiai:

PdfPig išgavimas

1 pavyzdys: Pagrindinis teksto išgavimas

Šis pavyzdys parodo, kaip atidaryti PDF dokumentą ir išgauti visą teksto turinį išlaikant skaitymo tvarką. PdfPig suteikia prieigą prie kiekvienos raidės su tiksliąja jos pozicija dokumente, leisdamas pažangią išdėstymo analizę, viršijančią paprastą teksto išgavimą.

Išvestis apima:

  • Žaliąjį teksto turinį skaitymo tvarka
  • Puslapių numerius kiekvienam teksto segmentui
  • Pagrindinę šrifto informaciją

2 pavyzdys: Išplėstinė pozicijos analizė

PdfPig puikiai teikia tikslias pozicijos duomenis teksto elementams. Šis pavyzdys parodo, kaip išgauti žodžius su jų ribojančiais langeliais, leidžiant atlikti užduotis kaip lentelių aptikimas, formų apdorojimas ir turinio sričių analizė.

3 pavyzdys: Šrifto ir metaduomenų išgavimas

Be teksto turinio, PdfPig suteikia prieigą prie dokumento metaduomenų ir išsamių šrifto informacijos. Šis pavyzdys parodo dokumento savybių išgavimą ir šrifto naudojimo analizę visame PDF.

Išplėstinės funkcijos

PdfPig palaiko profesionalią PDF analizę:

  • Vaizdų išgavimas: Prieiga prie įterptų vaizdų:

    Vaizdų išgavimas

    
        using var document = PdfDocument.Open("failas.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Vaizdo duomenų apdorojimas
            }
        }
        
    
  • Žymių naršymas: Prieiga prie dokumento struktūros:

    Žymės

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Puslapis {bookmark.PageNumber}");
        }
        
    
  • Šifruoti PDF: Slaptažodžiu apsaugotų failų tvarkymas:

    Šifruotas PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("šifruotas.pdf", options);
        
    

PdfPig vs PdfSharp

Štai 5 pagrindiniai skirtumai tarp PdfPig ir PDFsharp:

  • Pagrindinė funkcija:PdfPig specializuojasi teksto, pozicijų ir metaduomenų skaityme/išgavime. PDFsharp orientuotas į PDF dokumentų kūrimą/redagavimą
  • Tekstas vs grafika:PdfPig išgauna tekstą pikselių tikslumu (įskaitant koordinates). PDFsharp optimizuotas teksto/figūrų piešimui (ataskaitos, sąskaitos, formos)
  • Dokumento prieiga:PdfPig analizuoja esamus PDF, o PDFsharp gali keisti puslapius, pridėti turinį, sujungti failus
  • Išplėstinės funkcijosPdfPig atskleidžia šrifto detales, ribojančius langelius ir dokumento struktūrą, o PDFsharp palaiko PDF/A standartus, vaizdus ir šifravimą
  • Naudojimo atvejaiPdfPig tinka duomenų gavybai, OCR pirminiam apdorojimui, turinio analizei, o PDFsharp - ataskaitų generavimui, PDF manipuliavimui, formų užpildymui

Išvada

PdfPig suteikia neprilygstamą prieigą prie PDF turinio .NET kūrėjams. Idealus:

  • Duomenų išgavimui: Turinio gavybai iš ataskaitų ir dokumentų
  • Dokumentų analizei: PDF struktūros ir išdėstymo supratimui
  • Prieinamumui: PDF turinio konvertavimui į kitus formatus
  • Pirminiam apdorojimui: Dokumentų paruošimui OCR arba ML

Sutelkdamas dėmesį į tikslų turinio išgavimą ir mažą atminties naudojimą, PdfPig yra pirmasis pasirinkimas PDF analizei .NET aplinkoje.

Similar Products

 Lithuanian