PdfPig: Fejlett PDF szövegkinyerés .NET-hez

PDF tartalom olvasása és elemzése függőségek nélkül - szöveg, pozíciók, betűtípusok és metaadatok

Mi az a PdfPig?

A PdfPig egy nyílt forráskódú .NET könyvtár, amely a PDF fájlok tartalmának kinyerésére specializálódott külső függőségek nélkül. A PDF generátorokkal ellentétben a PdfPig a meglévő dokumentumok olvasására fókuszál, hogy hozzáférjen a szöveghez, betűtípus-információkhoz, pozíciós adatokhoz és a dokumentum szerkezetéhez. Különösen értékes adatbányászat, tartalomelemzés és dokumentumfeldolgozási folyamatok esetén.

A PdfPig fő előnyei:

Nincsenek függőségek: Tiszta C# implementáció
Alacsony szintű hozzáférés: Pontos szövegpozicionálás és betűtípus-metrikák
Memóriahatékony: Nagy dokumentumok kezelése minimális terheléssel
OCR-ra kész: Szöveg kinyerése határoló dobozokkal elemzéshez
MIT licenc: Ingyenes kereskedelmi használatra

Ideális dokumentumelemzéshez, szövegkinyeréshez és PDF tartalomfeldolgozáshoz.

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

Miért válassza a PdfPig-et?

Pontosság: Helyesen kezeli az összetett PDF szövegelrendezéseket
Teljesítmény: Gyorsabb hasonló .NET könyvtáraknál benchmark tesztekben
Átláthatóság: Hozzáférés a nyers PDF struktúrákhoz szükség esetén
Aktív fejlesztés: Rendszeres frissítések 2018 óta
Platformfüggetlen: Működik .NET Standard 2.0+ környezetben

Telepítés

A PdfPig elérhető NuGet-en keresztül egyszerű integrációhoz:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Rendszerkövetelmények: .NET Standard 2.0 kompatibilis futási környezet

Kódpéldák

Gyakorlati példák a PdfPig képességeire:

PdfPig kinyerés

1. példa: Alapszintű szövegkinyerés

Ez a példa bemutatja, hogyan nyitható meg egy PDF dokumentum és nyerhető ki az összes szöveges tartalom az olvasási sorrend megtartásával. A PdfPig hozzáférést biztosít minden egyes betűhöz annak pontos pozíciójával a dokumentumban, lehetővé téve a fejlett elrendezés-elemzést az egyszerű szövegkinyerésen túl.

A kimenet tartalmazza:

Nyers szöveges tartalmat olvasási sorrendben
Oldalszámokat minden szövegrészlethez
Alapvető betűtípus-információkat

2. példa: Fejlett pozícióelemzés

A PdfPig kiemelkedik a szövegelemek pontos pozíciós adatainak nyújtásában. Ez a példa bemutatja, hogyan nyerhetők ki szavak a határoló dobozaikkal, lehetővé téve olyan feladatokat, mint táblázatfelismerés, űrlapfeldolgozás és tartalmi területek elemzése.

3. példa: Betűtípus- és metaadat-kinyerés

A szöveges tartalmon túl a PdfPig hozzáférést biztosít a dokumentum metaadataihoz és részletes betűtípus-információkhoz. Ez a példa bemutatja a dokumentumtulajdonságok kinyerését és a betűtípus-használat elemzését a PDF-ben.

Haladó funkciók

A PdfPig támogatja a professzionális PDF elemzést:

Képkinyerés: Hozzáférés beágyazott képekhez:

Képkinyerés


    using var document = PdfDocument.Open("fájl.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Képadatok feldolgozása
        }
    }

Könyvjelzőnavigáció: Hozzáférés a dokumentum vázához:

Könyvjelzők


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - {bookmark.PageNumber}. oldal");
    }

Titkosított PDF-ek: Jelszóval védett fájlok kezelése:

Titkosított PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("titkosított.pdf", options);

PdfPig vs PdfSharp

Íme az 5 fő különbség a PdfPig és a PDFsharp között:

Elsődleges funkció: A PdfPig a szöveg, pozíciók és metaadatok olvasására/kinyerésére specializálódott. A PDFsharp PDF dokumentumok létrehozására/szerkesztésére fókuszál
Szöveg vs grafika: A PdfPig képpontos pontossággal nyeri ki a szöveget (koordinátákkal együtt). A PDFsharp szöveg/alakzatok rajzolására van optimalizálva (riportok, számlák, űrlapok)
Dokumentumhozzáférés: A PdfPig elemzi a meglévő PDF-eket, míg a PDFsharp módosíthat oldalakat, hozzáadhat tartalmat, egyesíthet fájlokat
Haladó funkciók A PdfPig feltárja a betűtípus-részleteket, határoló dobozokat és dokumentumszerkezetet, míg a PDFsharp támogatja a PDF/A szabványokat, képeket és titkosítást
Használati esetek A PdfPig adatbányászatra, OCR előfeldolgozásra, tartalomelemzésre, míg a PDFsharp riportgenerálásra, PDF manipulálásra, űrlapkitöltésre alkalmas

Összegzés

A PdfPig páratlan hozzáférést biztosít PDF tartalmakhoz .NET fejlesztők számára. Ideális:

Adatkinyeréshez: Tartalom kinyerése riportokból és dokumentumokból
Dokumentumelemzéshez: PDF szerkezet és elrendezés megértése
Akadálymentesítéshez: PDF tartalom konvertálása más formátumokká
Előfeldolgozáshoz: Dokumentumok előkészítése OCR vagy ML számára

Pontos tartalomkinyerésre és alacsony memóriahasználatra fókuszálva a PdfPig a legjobb választás PDF elemzéshez .NET környezetben.