PdfPig: Edistynyt PDF-tekstinpoiminta .NET:lle

Lue ja analysoi PDF-sisältöä ilman riippuvuuksia - teksti, sijainnit, fontit ja metatiedot

Mikä on PdfPig?

PdfPig on avoimen lähdekoodin .NET-kirjasto, joka keskittyy PDF-tiedostojen sisällön poimintaan ilman natiivien riippuvuuksien ylimääräistä kuormaa. Toisin kuin PDF-generaattorit, PdfPig erikoistuu olemassa olevien dokumenttien lukemiseen tekstin, fonttitietojen, sijaintitietojen ja dokumenttirakenteen saavuttamiseksi. Se on erityisen arvokas datanlouhinnassa, sisältöanalyysissä ja asiakirjojen käsittelyputkissa.

PdfPigin keskeiset edut:

Ei riippuvuuksia: Puhdas C#-toteutus
Alatason pääsy: Tarkka tekstin sijoittelu ja fonttimittaukset
Muistitehokas: Käsittelee suuria dokumentteja minimaalisella ylimääräisellä kuormalla
OCR-valmis: Poimi tekstiä rajauslaatikoineen analyysiä varten
MIT-lisenssi: Vapaa kaupalliseen käyttöön

Ihanteellinen asiakirjojen analysointiin, tekstin poimintaan ja PDF-sisällön käsittelyyn.

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

Miksi valita PdfPig?

Tarkkuus: Käsittelee monimutkaiset PDF-tekstiasettelut oikein
Suorituskyky: Nopeampi kuin vastaavat .NET-kirjastot vertailutesteissä
Läpinäkyvyys: Pääsy raakoihin PDF-rakenteisiin tarvittaessa
Aktiivinen kehitys: Säännöllisiä päivityksiä vuodesta 2018 lähtien
Alustariippumaton: Toimii .NET Standard 2.0+:ssa

Asennus

PdfPig on saatavilla NuGetin kautta helppoa integrointia varten:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Järjestelmävaatimukset: .NET Standard 2.0 -yhteensopiva suoritusympäristö

Koodiesimerkkejä

Käytännön esimerkkejä PdfPigin ominaisuuksista:

PdfPig-poiminta

Esimerkki 1: Perustekstin poiminta

Tämä esimerkki näyttää, miten PDF-dokumentti avataan ja kaikki tekstisisältö poimitaan säilyttäen lukujärjestys. PdfPig tarjoaa pääsyn jokaiseen kirjaimeen sen tarkassa sijainnissa dokumentissa, mahdollistaen edistyneen asettelun analyysin pelkän tekstin poiminnan lisäksi.

Tuloste sisältää:

Raakatekstisisällön lukujärjestyksessä
Sivunumerot jokaiselle tekstiosuudelle
Perusfonttitiedot

Esimerkki 2: Edistynyt sijaintianalyysi

PdfPig erottuu tarjoamalla tarkkoja sijaintitietoja teksti-elementeille. Tämä esimerkki näyttää, miten sanoja poimitaan niiden rajauslaatikoineen, mahdollistaen tehtäviä kuten taulukoiden tunnistus, lomakkeiden käsittely ja sisältöalueiden analyysi.

Esimerkki 3: Fonttien ja metatietojen poiminta

Tekstisisällön lisäksi PdfPig tarjoaa pääsyn dokumentin metatietoihin ja yksityiskohtaisiin fonttitietoihin. Tämä esimerkki esittelee dokumenttien ominaisuuksien poiminnan ja fonttien käytön analyysin koko PDF:ssä.

Edistyneet ominaisuudet

PdfPig tukee ammattimaista PDF-analyysiä:

Kuvien poiminta: Pääsy upotettuihin kuvihin:

Kuvien poiminta


    using var document = PdfDocument.Open("tiedosto.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Käsittele kuvadataa
        }
    }

Kirjanmerkkien navigointi: Pääsy dokumentin rakenteeseen:

Kirjanmerkit


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Sivu {bookmark.PageNumber}");
    }

Salatut PDF:t: Salasanasuojattujen tiedostojen käsittely:

Salattu PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("salattu.pdf", options);

PdfPig vs PdfSharp

Tässä 5 keskeistä eroa PdfPigin ja PDFsharpin välillä:

Päätehtävä: PdfPig erikoistuu tekstin, sijaintien ja metatietojen lukemiseen/poimintaan. PDFsharp keskittyy PDF-dokumenttien luomiseen/muokkaamiseen
Teksti vs grafiikka: PdfPig poimii tekstin pikselitarkkuudella (mukaan lukien koordinaatit). PDFsharp on optimoitu tekstin/muotojen piirtämiseen (raportit, laskut, lomakkeet)
Dokumenttipääsy: PdfPig analysoi olemassa olevia PDF-tiedostoja, kun taas PDFsharp voi muokata sivuja, lisätä sisältöä ja yhdistää tiedostoja
Edistyneet ominaisuudet PdfPig paljastaa fonttitiedot, rajauslaatikot ja dokumenttirakenteen, kun taas PDFsharp tukee PDF/A-standardeja, kuvia ja salauksia
Käyttötapaukset PdfPig sopii datanlouhintaan, OCR-esikäsittelyyn, sisältöanalyysiin, kun taas PDFsharp on tarkoitettu raporttien luomiseen, PDF-manipulointiin, lomakkeiden täyttöön

Johtopäätös

PdfPig tarjoaa vertaansa vailla olevan PDF-sisällön käyttöönoton .NET-kehittäjille. Ihanteellinen:

Datan poimintaan: Sisällön louhinta raporteista ja asiakirjoista
Asiakirjojen analysointiin: PDF-rakenteen ja asettelun ymmärtäminen
Saavutettavuuteen: PDF-sisällön muuntaminen muihin muotoihin
Esikäsittelyyn: Asiakirjojen valmistelu OCR:lle tai koneoppimiselle

Tarkkaan sisällön poimintaan ja vähäiseen muistinkäyttöön keskittyen PdfPig on ensisijainen valinta PDF-analyysiin .NET-ympäristössä.