PdfPig: Edistynyt PDF-tekstinpoiminta .NET:lle
Lue ja analysoi PDF-sisältöä ilman riippuvuuksia - teksti, sijainnit, fontit ja metatiedot
Mikä on PdfPig?
PdfPig on avoimen lähdekoodin .NET-kirjasto, joka keskittyy PDF-tiedostojen sisällön poimintaan ilman natiivien riippuvuuksien ylimääräistä kuormaa. Toisin kuin PDF-generaattorit, PdfPig erikoistuu olemassa olevien dokumenttien lukemiseen tekstin, fonttitietojen, sijaintitietojen ja dokumenttirakenteen saavuttamiseksi. Se on erityisen arvokas datanlouhinnassa, sisältöanalyysissä ja asiakirjojen käsittelyputkissa.
PdfPigin keskeiset edut:
- Ei riippuvuuksia: Puhdas C#-toteutus
- Alatason pääsy: Tarkka tekstin sijoittelu ja fonttimittaukset
- Muistitehokas: Käsittelee suuria dokumentteja minimaalisella ylimääräisellä kuormalla
- OCR-valmis: Poimi tekstiä rajauslaatikoineen analyysiä varten
- MIT-lisenssi: Vapaa kaupalliseen käyttöön
Ihanteellinen asiakirjojen analysointiin, tekstin poimintaan ja PDF-sisällön käsittelyyn.
Miksi valita PdfPig?
- Tarkkuus: Käsittelee monimutkaiset PDF-tekstiasettelut oikein
- Suorituskyky: Nopeampi kuin vastaavat .NET-kirjastot vertailutesteissä
- Läpinäkyvyys: Pääsy raakoihin PDF-rakenteisiin tarvittaessa
- Aktiivinen kehitys: Säännöllisiä päivityksiä vuodesta 2018 lähtien
- Alustariippumaton: Toimii .NET Standard 2.0+:ssa
Asennus
PdfPig on saatavilla NuGetin kautta helppoa integrointia varten:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Järjestelmävaatimukset: .NET Standard 2.0 -yhteensopiva suoritusympäristö
Koodiesimerkkejä
Käytännön esimerkkejä PdfPigin ominaisuuksista:
Esimerkki 1: Perustekstin poiminta
Tämä esimerkki näyttää, miten PDF-dokumentti avataan ja kaikki tekstisisältö poimitaan säilyttäen lukujärjestys. PdfPig tarjoaa pääsyn jokaiseen kirjaimeen sen tarkassa sijainnissa dokumentissa, mahdollistaen edistyneen asettelun analyysin pelkän tekstin poiminnan lisäksi.
Tuloste sisältää:
- Raakatekstisisällön lukujärjestyksessä
- Sivunumerot jokaiselle tekstiosuudelle
- Perusfonttitiedot
Esimerkki 2: Edistynyt sijaintianalyysi
PdfPig erottuu tarjoamalla tarkkoja sijaintitietoja teksti-elementeille. Tämä esimerkki näyttää, miten sanoja poimitaan niiden rajauslaatikoineen, mahdollistaen tehtäviä kuten taulukoiden tunnistus, lomakkeiden käsittely ja sisältöalueiden analyysi.
Esimerkki 3: Fonttien ja metatietojen poiminta
Tekstisisällön lisäksi PdfPig tarjoaa pääsyn dokumentin metatietoihin ja yksityiskohtaisiin fonttitietoihin. Tämä esimerkki esittelee dokumenttien ominaisuuksien poiminnan ja fonttien käytön analyysin koko PDF:ssä.
Edistyneet ominaisuudet
PdfPig tukee ammattimaista PDF-analyysiä:
- Kuvien poiminta: Pääsy upotettuihin kuvihin:
Kuvien poiminta
using var document = PdfDocument.Open("tiedosto.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Käsittele kuvadataa } }
- Kirjanmerkkien navigointi: Pääsy dokumentin rakenteeseen:
Kirjanmerkit
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Sivu {bookmark.PageNumber}"); }
- Salatut PDF:t: Salasanasuojattujen tiedostojen käsittely:
Salattu PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("salattu.pdf", options);
PdfPig vs PdfSharp
Tässä 5 keskeistä eroa PdfPigin ja PDFsharpin välillä:
- Päätehtävä: PdfPig erikoistuu tekstin, sijaintien ja metatietojen lukemiseen/poimintaan. PDFsharp keskittyy PDF-dokumenttien luomiseen/muokkaamiseen
- Teksti vs grafiikka: PdfPig poimii tekstin pikselitarkkuudella (mukaan lukien koordinaatit). PDFsharp on optimoitu tekstin/muotojen piirtämiseen (raportit, laskut, lomakkeet)
- Dokumenttipääsy: PdfPig analysoi olemassa olevia PDF-tiedostoja, kun taas PDFsharp voi muokata sivuja, lisätä sisältöä ja yhdistää tiedostoja
- Edistyneet ominaisuudet PdfPig paljastaa fonttitiedot, rajauslaatikot ja dokumenttirakenteen, kun taas PDFsharp tukee PDF/A-standardeja, kuvia ja salauksia
- Käyttötapaukset PdfPig sopii datanlouhintaan, OCR-esikäsittelyyn, sisältöanalyysiin, kun taas PDFsharp on tarkoitettu raporttien luomiseen, PDF-manipulointiin, lomakkeiden täyttöön
Johtopäätös
PdfPig tarjoaa vertaansa vailla olevan PDF-sisällön käyttöönoton .NET-kehittäjille. Ihanteellinen:
- Datan poimintaan: Sisällön louhinta raporteista ja asiakirjoista
- Asiakirjojen analysointiin: PDF-rakenteen ja asettelun ymmärtäminen
- Saavutettavuuteen: PDF-sisällön muuntaminen muihin muotoihin
- Esikäsittelyyn: Asiakirjojen valmistelu OCR:lle tai koneoppimiselle
Tarkkaan sisällön poimintaan ja vähäiseen muistinkäyttöön keskittyen PdfPig on ensisijainen valinta PDF-analyysiin .NET-ympäristössä.