1. Products
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Uzlabota PDF teksta izgūšana priekš .NET

Lasiet un analizējiet PDF saturu bez atkarībām - teksts, pozīcijas, fonti un metadati

Kas ir PdfPig?

PdfPig ir atvērtā koda .NET bibliotēka, kas specializējas satura izgūšanai no PDF failiem bez jebkādām atkarībām. Atšķirībā no PDF ģeneratoriem, PdfPig koncentrējas uz esošu dokumentu lasīšanu, lai piekļūtu tekstam, fonta informācijai, pozīcijas datiem un dokumenta struktūrai. Īpaši noderīgs datu ieguvei, satura analīzei un dokumentu apstrādes procesiem.

Galvenās PdfPig priekšrocības:

  • Nav atkarību: Tīra C# implementācija
  • Zema līmeņa piekļuve: Precīza teksta pozicionēšana un fonta metriki
  • Atmiņas efektivitāte: Apstrādā lielus dokumentus ar minimālu papildu slodzi
  • Gatavs OCR: Izgūst tekstu ar ierobežojošiem kastītiem analīzei
  • MIT licence: Bezmaksas komerciālai lietošanai

Ideāls dokumentu analīzei, teksta izgūšanai un PDF satura apstrādei.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

Kāpēc izvēlēties PdfPig?

  • Precizitāte: Pareizi apstrādā sarežģītus PDF teksta izkārtojumus
  • Veiktspēja: Ātrāks nekā līdzīgas .NET bibliotēkas testos
  • Caurspīdīgums: Piekļuve neapstrādātām PDF struktūrām pēc vajadzības
  • Aktīva izstrāde: Regulāri atjauninājumi kopš 2018. gada
  • Platformu neatkarīgs: Darbojas ar .NET Standard 2.0+

Instalēšana

PdfPig ir pieejams caur NuGet vienkāršai integrācijai:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistēmas prasības: .NET Standard 2.0 saderīga izpildlaika vide

Koda piemēri

Praktiski PdfPig iespēju piemēri:

PdfPig izgūšana

1. piemērs: Pamata teksta izgūšana

Šis piemērs parāda, kā atvērt PDF dokumentu un izgūt visu teksta saturu, saglabājot lasīšanas secību. PdfPig nodrošina piekļuvi katram burtam ar tā precīzu atrašanās vietu dokumentā, ļaujot veikt uzlabotu izkārtojuma analīzi, kas pārsniedz vienkāršu teksta izgūšanu.

Izvade ietver:

  • Neapstrādātu teksta saturu lasīšanas secībā
  • Lapu numurus katram teksta segmentam
  • Pamata fonta informāciju

2. piemērs: Uzlabota pozīcijas analīze

PdfPig izceļas, nodrošinot precīzus pozīcijas datus teksta elementiem. Šis piemērs parāda, kā izgūt vārdus ar to ierobežojošajiem kastītiem, ļaujot veikt uzdevumus, piemēram, tabulu noteikšanu, veidņu apstrādi un satura apgabalu analīzi.

3. piemērs: Fonta un metadatu izgūšana

Papildus teksta saturam, PdfPig nodrošina piekļuvi dokumenta metadatiem un detalizētai fonta informācijai. Šis piemērs parāda dokumenta īpašību izgūšanu un fonta izmantošanas analīzi visā PDF.

Uzlabotas funkcijas

PdfPig atbalsta profesionālu PDF analīzi:

  • Attēlu izgūšana: Piekļuve iegultiem attēliem:

    Attēlu izgūšana

    
        using var document = PdfDocument.Open("fails.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Apstrādāt attēla datus
            }
        }
        
    
  • Grāmatzīmju navigācija: Piekļuve dokumenta struktūrai:

    Grāmatzīmes

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Lapa {bookmark.PageNumber}");
        }
        
    
  • Šifrēti PDF: Paroles aizsargātu failu apstrāde:

    Šifrēts PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("šifrēts.pdf", options);
        
    

PdfPig vs PdfSharp

Šeit ir 5 galvenās atšķirības starp PdfPig un PDFsharp:

  • Galvenā funkcija:PdfPig specializējas teksta, pozīciju un metadatu lasīšanā/izgūšanā. PDFsharp koncentrējas uz PDF dokumentu izveidi/rediģēšanu
  • Teksts vs grafika:PdfPig izgūst tekstu pikseļu precizitātē (ieskaitot koordinātas). PDFsharp ir optimizēts teksta/formu zīmēšanai (atskaites, rēķini, veidnes)
  • Dokumenta piekļuve:PdfPig analizē esošus PDF, kamēr PDFsharp var modificēt lapas, pievienot saturu, apvienot failus
  • Uzlabotas funkcijasPdfPig atklāj fonta detaļas, ierobežojošos kastītus un dokumenta struktūru, kamēr PDFsharp atbalsta PDF/A standartus, attēlus un šifrēšanu
  • Lietošanas gadījumiPdfPig piemērots datu ieguvei, OCR priekšapstrādei, satura analīzei, kamēr PDFsharp piemērots atskaišu ģenerēšanai, PDF manipulācijai, veidņu aizpildīšanai

Secinājumi

PdfPig nodrošina nepiemērotu piekļuvi PDF saturam .NET izstrādātājiem. Ideāls:

  • Datu izgūšanai: Satura ieguvei no atskaitēm un dokumentiem
  • Dokumentu analīzei: PDF struktūras un izkārtojuma izpratnei
  • Pieejamībai: PDF satura konvertēšanai citos formātos
  • Priekšapstrādei: Dokumentu sagatavošanai OCR vai ML

Koncentrējoties uz precīzu satura izgūšanu un zemu atmiņas izmantošanu, PdfPig ir galvenais izvēles variants PDF analīzei .NET vidē.

Similar Products

 Latvian