PdfPig: Uzlabota PDF teksta izgūšana priekš .NET

Lasiet un analizējiet PDF saturu bez atkarībām - teksts, pozīcijas, fonti un metadati

Kas ir PdfPig?

PdfPig ir atvērtā koda .NET bibliotēka, kas specializējas satura izgūšanai no PDF failiem bez jebkādām atkarībām. Atšķirībā no PDF ģeneratoriem, PdfPig koncentrējas uz esošu dokumentu lasīšanu, lai piekļūtu tekstam, fonta informācijai, pozīcijas datiem un dokumenta struktūrai. Īpaši noderīgs datu ieguvei, satura analīzei un dokumentu apstrādes procesiem.

Galvenās PdfPig priekšrocības:

Nav atkarību: Tīra C# implementācija
Zema līmeņa piekļuve: Precīza teksta pozicionēšana un fonta metriki
Atmiņas efektivitāte: Apstrādā lielus dokumentus ar minimālu papildu slodzi
Gatavs OCR: Izgūst tekstu ar ierobežojošiem kastītiem analīzei
MIT licence: Bezmaksas komerciālai lietošanai

Ideāls dokumentu analīzei, teksta izgūšanai un PDF satura apstrādei.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kāpēc izvēlēties PdfPig?

Precizitāte: Pareizi apstrādā sarežģītus PDF teksta izkārtojumus
Veiktspēja: Ātrāks nekā līdzīgas .NET bibliotēkas testos
Caurspīdīgums: Piekļuve neapstrādātām PDF struktūrām pēc vajadzības
Aktīva izstrāde: Regulāri atjauninājumi kopš 2018. gada
Platformu neatkarīgs: Darbojas ar .NET Standard 2.0+

Instalēšana

PdfPig ir pieejams caur NuGet vienkāršai integrācijai:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistēmas prasības: .NET Standard 2.0 saderīga izpildlaika vide

Koda piemēri

Praktiski PdfPig iespēju piemēri:

PdfPig izgūšana

1. piemērs: Pamata teksta izgūšana

Šis piemērs parāda, kā atvērt PDF dokumentu un izgūt visu teksta saturu, saglabājot lasīšanas secību. PdfPig nodrošina piekļuvi katram burtam ar tā precīzu atrašanās vietu dokumentā, ļaujot veikt uzlabotu izkārtojuma analīzi, kas pārsniedz vienkāršu teksta izgūšanu.

Izvade ietver:

Neapstrādātu teksta saturu lasīšanas secībā
Lapu numurus katram teksta segmentam
Pamata fonta informāciju

2. piemērs: Uzlabota pozīcijas analīze

PdfPig izceļas, nodrošinot precīzus pozīcijas datus teksta elementiem. Šis piemērs parāda, kā izgūt vārdus ar to ierobežojošajiem kastītiem, ļaujot veikt uzdevumus, piemēram, tabulu noteikšanu, veidņu apstrādi un satura apgabalu analīzi.

3. piemērs: Fonta un metadatu izgūšana

Papildus teksta saturam, PdfPig nodrošina piekļuvi dokumenta metadatiem un detalizētai fonta informācijai. Šis piemērs parāda dokumenta īpašību izgūšanu un fonta izmantošanas analīzi visā PDF.

Uzlabotas funkcijas

PdfPig atbalsta profesionālu PDF analīzi:

Attēlu izgūšana: Piekļuve iegultiem attēliem:

Attēlu izgūšana


    using var document = PdfDocument.Open("fails.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Apstrādāt attēla datus
        }
    }

Grāmatzīmju navigācija: Piekļuve dokumenta struktūrai:

Grāmatzīmes


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Lapa {bookmark.PageNumber}");
    }

Šifrēti PDF: Paroles aizsargātu failu apstrāde:

Šifrēts PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("šifrēts.pdf", options);

PdfPig vs PdfSharp

Šeit ir 5 galvenās atšķirības starp PdfPig un PDFsharp:

Galvenā funkcija:PdfPig specializējas teksta, pozīciju un metadatu lasīšanā/izgūšanā. PDFsharp koncentrējas uz PDF dokumentu izveidi/rediģēšanu
Teksts vs grafika:PdfPig izgūst tekstu pikseļu precizitātē (ieskaitot koordinātas). PDFsharp ir optimizēts teksta/formu zīmēšanai (atskaites, rēķini, veidnes)
Dokumenta piekļuve:PdfPig analizē esošus PDF, kamēr PDFsharp var modificēt lapas, pievienot saturu, apvienot failus
Uzlabotas funkcijasPdfPig atklāj fonta detaļas, ierobežojošos kastītus un dokumenta struktūru, kamēr PDFsharp atbalsta PDF/A standartus, attēlus un šifrēšanu
Lietošanas gadījumiPdfPig piemērots datu ieguvei, OCR priekšapstrādei, satura analīzei, kamēr PDFsharp piemērots atskaišu ģenerēšanai, PDF manipulācijai, veidņu aizpildīšanai

Secinājumi

PdfPig nodrošina nepiemērotu piekļuvi PDF saturam .NET izstrādātājiem. Ideāls:

Datu izgūšanai: Satura ieguvei no atskaitēm un dokumentiem
Dokumentu analīzei: PDF struktūras un izkārtojuma izpratnei
Pieejamībai: PDF satura konvertēšanai citos formātos
Priekšapstrādei: Dokumentu sagatavošanai OCR vai ML

Koncentrējoties uz precīzu satura izgūšanu un zemu atmiņas izmantošanu, PdfPig ir galvenais izvēles variants PDF analīzei .NET vidē.