PdfPig: Edistynyt PDF-tekstinpoiminta .NET:lle

Lue ja analysoi PDF-sisältöä ilman riippuvuuksia - teksti, sijainnit, fontit ja metatiedot

Mikä on PdfPig?

PdfPig on avoimen lähdekoodin .NET-kirjasto, joka keskittyy PDF-tiedostojen sisällön poimintaan ilman natiivien riippuvuuksien ylimääräistä kuormaa. Toisin kuin PDF-generaattorit, PdfPig erikoistuu olemassa olevien dokumenttien lukemiseen tekstin, fonttitietojen, sijaintitietojen ja dokumenttirakenteen saavuttamiseksi. Se on erityisen arvokas datanlouhinnassa, sisältöanalyysissä ja asiakirjojen käsittelyputkissa.

PdfPigin keskeiset edut:

  • Ei riippuvuuksia: Puhdas C#-toteutus
  • Alatason pääsy: Tarkka tekstin sijoittelu ja fonttimittaukset
  • Muistitehokas: Käsittelee suuria dokumentteja minimaalisella ylimääräisellä kuormalla
  • OCR-valmis: Poimi tekstiä rajauslaatikoineen analyysiä varten
  • MIT-lisenssi: Vapaa kaupalliseen käyttöön

Ihanteellinen asiakirjojen analysointiin, tekstin poimintaan ja PDF-sisällön käsittelyyn.

GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

Miksi valita PdfPig?

  • Tarkkuus: Käsittelee monimutkaiset PDF-tekstiasettelut oikein
  • Suorituskyky: Nopeampi kuin vastaavat .NET-kirjastot vertailutesteissä
  • Läpinäkyvyys: Pääsy raakoihin PDF-rakenteisiin tarvittaessa
  • Aktiivinen kehitys: Säännöllisiä päivityksiä vuodesta 2018 lähtien
  • Alustariippumaton: Toimii .NET Standard 2.0+:ssa

Asennus

PdfPig on saatavilla NuGetin kautta helppoa integrointia varten:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Järjestelmävaatimukset: .NET Standard 2.0 -yhteensopiva suoritusympäristö

Koodiesimerkkejä

Käytännön esimerkkejä PdfPigin ominaisuuksista:

PdfPig-poiminta

Esimerkki 1: Perustekstin poiminta

Tämä esimerkki näyttää, miten PDF-dokumentti avataan ja kaikki tekstisisältö poimitaan säilyttäen lukujärjestys. PdfPig tarjoaa pääsyn jokaiseen kirjaimeen sen tarkassa sijainnissa dokumentissa, mahdollistaen edistyneen asettelun analyysin pelkän tekstin poiminnan lisäksi.

Tuloste sisältää:

  • Raakatekstisisällön lukujärjestyksessä
  • Sivunumerot jokaiselle tekstiosuudelle
  • Perusfonttitiedot

Esimerkki 2: Edistynyt sijaintianalyysi

PdfPig erottuu tarjoamalla tarkkoja sijaintitietoja teksti-elementeille. Tämä esimerkki näyttää, miten sanoja poimitaan niiden rajauslaatikoineen, mahdollistaen tehtäviä kuten taulukoiden tunnistus, lomakkeiden käsittely ja sisältöalueiden analyysi.

Esimerkki 3: Fonttien ja metatietojen poiminta

Tekstisisällön lisäksi PdfPig tarjoaa pääsyn dokumentin metatietoihin ja yksityiskohtaisiin fonttitietoihin. Tämä esimerkki esittelee dokumenttien ominaisuuksien poiminnan ja fonttien käytön analyysin koko PDF:ssä.

Edistyneet ominaisuudet

PdfPig tukee ammattimaista PDF-analyysiä:

  • Kuvien poiminta: Pääsy upotettuihin kuvihin:

    Kuvien poiminta

    
        using var document = PdfDocument.Open("tiedosto.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Käsittele kuvadataa
            }
        }
        
    
  • Kirjanmerkkien navigointi: Pääsy dokumentin rakenteeseen:

    Kirjanmerkit

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Sivu {bookmark.PageNumber}");
        }
        
    
  • Salatut PDF:t: Salasanasuojattujen tiedostojen käsittely:

    Salattu PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("salattu.pdf", options);
        
    

PdfPig vs PdfSharp

Tässä 5 keskeistä eroa PdfPigin ja PDFsharpin välillä:

  • Päätehtävä: PdfPig erikoistuu tekstin, sijaintien ja metatietojen lukemiseen/poimintaan. PDFsharp keskittyy PDF-dokumenttien luomiseen/muokkaamiseen
  • Teksti vs grafiikka: PdfPig poimii tekstin pikselitarkkuudella (mukaan lukien koordinaatit). PDFsharp on optimoitu tekstin/muotojen piirtämiseen (raportit, laskut, lomakkeet)
  • Dokumenttipääsy: PdfPig analysoi olemassa olevia PDF-tiedostoja, kun taas PDFsharp voi muokata sivuja, lisätä sisältöä ja yhdistää tiedostoja
  • Edistyneet ominaisuudet PdfPig paljastaa fonttitiedot, rajauslaatikot ja dokumenttirakenteen, kun taas PDFsharp tukee PDF/A-standardeja, kuvia ja salauksia
  • Käyttötapaukset PdfPig sopii datanlouhintaan, OCR-esikäsittelyyn, sisältöanalyysiin, kun taas PDFsharp on tarkoitettu raporttien luomiseen, PDF-manipulointiin, lomakkeiden täyttöön

Johtopäätös

PdfPig tarjoaa vertaansa vailla olevan PDF-sisällön käyttöönoton .NET-kehittäjille. Ihanteellinen:

  • Datan poimintaan: Sisällön louhinta raporteista ja asiakirjoista
  • Asiakirjojen analysointiin: PDF-rakenteen ja asettelun ymmärtäminen
  • Saavutettavuuteen: PDF-sisällön muuntaminen muihin muotoihin
  • Esikäsittelyyn: Asiakirjojen valmistelu OCR:lle tai koneoppimiselle

Tarkkaan sisällön poimintaan ja vähäiseen muistinkäyttöön keskittyen PdfPig on ensisijainen valinta PDF-analyysiin .NET-ympäristössä.

Samankaltaisia Tuotteita

 Finnish