1. Termékek
  2.   Elemző
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Fejlett PDF szövegkinyerés .NET-hez

PDF tartalom olvasása és elemzése függőségek nélkül - szöveg, pozíciók, betűtípusok és metaadatok

Mi az a PdfPig?

A PdfPig egy nyílt forráskódú .NET könyvtár, amely a PDF fájlok tartalmának kinyerésére specializálódott külső függőségek nélkül. A PDF generátorokkal ellentétben a PdfPig a meglévő dokumentumok olvasására fókuszál, hogy hozzáférjen a szöveghez, betűtípus-információkhoz, pozíciós adatokhoz és a dokumentum szerkezetéhez. Különösen értékes adatbányászat, tartalomelemzés és dokumentumfeldolgozási folyamatok esetén.

A PdfPig fő előnyei:

  • Nincsenek függőségek: Tiszta C# implementáció
  • Alacsony szintű hozzáférés: Pontos szövegpozicionálás és betűtípus-metrikák
  • Memóriahatékony: Nagy dokumentumok kezelése minimális terheléssel
  • OCR-ra kész: Szöveg kinyerése határoló dobozokkal elemzéshez
  • MIT licenc: Ingyenes kereskedelmi használatra

Ideális dokumentumelemzéshez, szövegkinyeréshez és PDF tartalomfeldolgozáshoz.

GitHub

GitHub statisztika

Név:
Nyelv:
Csillagok:
Villák:
Engedély:
Az adattár legutóbbi frissítése:

Miért válassza a PdfPig-et?

  • Pontosság: Helyesen kezeli az összetett PDF szövegelrendezéseket
  • Teljesítmény: Gyorsabb hasonló .NET könyvtáraknál benchmark tesztekben
  • Átláthatóság: Hozzáférés a nyers PDF struktúrákhoz szükség esetén
  • Aktív fejlesztés: Rendszeres frissítések 2018 óta
  • Platformfüggetlen: Működik .NET Standard 2.0+ környezetben

Telepítés

A PdfPig elérhető NuGet-en keresztül egyszerű integrációhoz:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Rendszerkövetelmények: .NET Standard 2.0 kompatibilis futási környezet

Kódpéldák

Gyakorlati példák a PdfPig képességeire:

PdfPig kinyerés

1. példa: Alapszintű szövegkinyerés

Ez a példa bemutatja, hogyan nyitható meg egy PDF dokumentum és nyerhető ki az összes szöveges tartalom az olvasási sorrend megtartásával. A PdfPig hozzáférést biztosít minden egyes betűhöz annak pontos pozíciójával a dokumentumban, lehetővé téve a fejlett elrendezés-elemzést az egyszerű szövegkinyerésen túl.

A kimenet tartalmazza:

  • Nyers szöveges tartalmat olvasási sorrendben
  • Oldalszámokat minden szövegrészlethez
  • Alapvető betűtípus-információkat

2. példa: Fejlett pozícióelemzés

A PdfPig kiemelkedik a szövegelemek pontos pozíciós adatainak nyújtásában. Ez a példa bemutatja, hogyan nyerhetők ki szavak a határoló dobozaikkal, lehetővé téve olyan feladatokat, mint táblázatfelismerés, űrlapfeldolgozás és tartalmi területek elemzése.

3. példa: Betűtípus- és metaadat-kinyerés

A szöveges tartalmon túl a PdfPig hozzáférést biztosít a dokumentum metaadataihoz és részletes betűtípus-információkhoz. Ez a példa bemutatja a dokumentumtulajdonságok kinyerését és a betűtípus-használat elemzését a PDF-ben.

Haladó funkciók

A PdfPig támogatja a professzionális PDF elemzést:

  • Képkinyerés: Hozzáférés beágyazott képekhez:

    Képkinyerés

    
        using var document = PdfDocument.Open("fájl.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Képadatok feldolgozása
            }
        }
        
    
  • Könyvjelzőnavigáció: Hozzáférés a dokumentum vázához:

    Könyvjelzők

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - {bookmark.PageNumber}. oldal");
        }
        
    
  • Titkosított PDF-ek: Jelszóval védett fájlok kezelése:

    Titkosított PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("titkosított.pdf", options);
        
    

PdfPig vs PdfSharp

Íme az 5 fő különbség a PdfPig és a PDFsharp között:

  • Elsődleges funkció: A PdfPig a szöveg, pozíciók és metaadatok olvasására/kinyerésére specializálódott. A PDFsharp PDF dokumentumok létrehozására/szerkesztésére fókuszál
  • Szöveg vs grafika: A PdfPig képpontos pontossággal nyeri ki a szöveget (koordinátákkal együtt). A PDFsharp szöveg/alakzatok rajzolására van optimalizálva (riportok, számlák, űrlapok)
  • Dokumentumhozzáférés: A PdfPig elemzi a meglévő PDF-eket, míg a PDFsharp módosíthat oldalakat, hozzáadhat tartalmat, egyesíthet fájlokat
  • Haladó funkciók A PdfPig feltárja a betűtípus-részleteket, határoló dobozokat és dokumentumszerkezetet, míg a PDFsharp támogatja a PDF/A szabványokat, képeket és titkosítást
  • Használati esetek A PdfPig adatbányászatra, OCR előfeldolgozásra, tartalomelemzésre, míg a PDFsharp riportgenerálásra, PDF manipulálásra, űrlapkitöltésre alkalmas

Összegzés

A PdfPig páratlan hozzáférést biztosít PDF tartalmakhoz .NET fejlesztők számára. Ideális:

  • Adatkinyeréshez: Tartalom kinyerése riportokból és dokumentumokból
  • Dokumentumelemzéshez: PDF szerkezet és elrendezés megértése
  • Akadálymentesítéshez: PDF tartalom konvertálása más formátumokká
  • Előfeldolgozáshoz: Dokumentumok előkészítése OCR vagy ML számára

Pontos tartalomkinyerésre és alacsony memóriahasználatra fókuszálva a PdfPig a legjobb választás PDF elemzéshez .NET környezetben.

Hasonló Termékek

 Hungarian