PdfPig: Fejlett PDF szövegkinyerés .NET-hez
PDF tartalom olvasása és elemzése függőségek nélkül - szöveg, pozíciók, betűtípusok és metaadatok
Mi az a PdfPig?
A PdfPig egy nyílt forráskódú .NET könyvtár, amely a PDF fájlok tartalmának kinyerésére specializálódott külső függőségek nélkül. A PDF generátorokkal ellentétben a PdfPig a meglévő dokumentumok olvasására fókuszál, hogy hozzáférjen a szöveghez, betűtípus-információkhoz, pozíciós adatokhoz és a dokumentum szerkezetéhez. Különösen értékes adatbányászat, tartalomelemzés és dokumentumfeldolgozási folyamatok esetén.
A PdfPig fő előnyei:
- Nincsenek függőségek: Tiszta C# implementáció
- Alacsony szintű hozzáférés: Pontos szövegpozicionálás és betűtípus-metrikák
- Memóriahatékony: Nagy dokumentumok kezelése minimális terheléssel
- OCR-ra kész: Szöveg kinyerése határoló dobozokkal elemzéshez
- MIT licenc: Ingyenes kereskedelmi használatra
Ideális dokumentumelemzéshez, szövegkinyeréshez és PDF tartalomfeldolgozáshoz.
Miért válassza a PdfPig-et?
- Pontosság: Helyesen kezeli az összetett PDF szövegelrendezéseket
- Teljesítmény: Gyorsabb hasonló .NET könyvtáraknál benchmark tesztekben
- Átláthatóság: Hozzáférés a nyers PDF struktúrákhoz szükség esetén
- Aktív fejlesztés: Rendszeres frissítések 2018 óta
- Platformfüggetlen: Működik .NET Standard 2.0+ környezetben
Telepítés
A PdfPig elérhető NuGet-en keresztül egyszerű integrációhoz:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Rendszerkövetelmények: .NET Standard 2.0 kompatibilis futási környezet
Kódpéldák
Gyakorlati példák a PdfPig képességeire:
1. példa: Alapszintű szövegkinyerés
Ez a példa bemutatja, hogyan nyitható meg egy PDF dokumentum és nyerhető ki az összes szöveges tartalom az olvasási sorrend megtartásával. A PdfPig hozzáférést biztosít minden egyes betűhöz annak pontos pozíciójával a dokumentumban, lehetővé téve a fejlett elrendezés-elemzést az egyszerű szövegkinyerésen túl.
A kimenet tartalmazza:
- Nyers szöveges tartalmat olvasási sorrendben
- Oldalszámokat minden szövegrészlethez
- Alapvető betűtípus-információkat
2. példa: Fejlett pozícióelemzés
A PdfPig kiemelkedik a szövegelemek pontos pozíciós adatainak nyújtásában. Ez a példa bemutatja, hogyan nyerhetők ki szavak a határoló dobozaikkal, lehetővé téve olyan feladatokat, mint táblázatfelismerés, űrlapfeldolgozás és tartalmi területek elemzése.
3. példa: Betűtípus- és metaadat-kinyerés
A szöveges tartalmon túl a PdfPig hozzáférést biztosít a dokumentum metaadataihoz és részletes betűtípus-információkhoz. Ez a példa bemutatja a dokumentumtulajdonságok kinyerését és a betűtípus-használat elemzését a PDF-ben.
Haladó funkciók
A PdfPig támogatja a professzionális PDF elemzést:
- Képkinyerés: Hozzáférés beágyazott képekhez:
Képkinyerés
using var document = PdfDocument.Open("fájl.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Képadatok feldolgozása } }
- Könyvjelzőnavigáció: Hozzáférés a dokumentum vázához:
Könyvjelzők
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - {bookmark.PageNumber}. oldal"); }
- Titkosított PDF-ek: Jelszóval védett fájlok kezelése:
Titkosított PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("titkosított.pdf", options);
PdfPig vs PdfSharp
Íme az 5 fő különbség a PdfPig és a PDFsharp között:
- Elsődleges funkció: A PdfPig a szöveg, pozíciók és metaadatok olvasására/kinyerésére specializálódott. A PDFsharp PDF dokumentumok létrehozására/szerkesztésére fókuszál
- Szöveg vs grafika: A PdfPig képpontos pontossággal nyeri ki a szöveget (koordinátákkal együtt). A PDFsharp szöveg/alakzatok rajzolására van optimalizálva (riportok, számlák, űrlapok)
- Dokumentumhozzáférés: A PdfPig elemzi a meglévő PDF-eket, míg a PDFsharp módosíthat oldalakat, hozzáadhat tartalmat, egyesíthet fájlokat
- Haladó funkciók A PdfPig feltárja a betűtípus-részleteket, határoló dobozokat és dokumentumszerkezetet, míg a PDFsharp támogatja a PDF/A szabványokat, képeket és titkosítást
- Használati esetek A PdfPig adatbányászatra, OCR előfeldolgozásra, tartalomelemzésre, míg a PDFsharp riportgenerálásra, PDF manipulálásra, űrlapkitöltésre alkalmas
Összegzés
A PdfPig páratlan hozzáférést biztosít PDF tartalmakhoz .NET fejlesztők számára. Ideális:
- Adatkinyeréshez: Tartalom kinyerése riportokból és dokumentumokból
- Dokumentumelemzéshez: PDF szerkezet és elrendezés megértése
- Akadálymentesítéshez: PDF tartalom konvertálása más formátumokká
- Előfeldolgozáshoz: Dokumentumok előkészítése OCR vagy ML számára
Pontos tartalomkinyerésre és alacsony memóriahasználatra fókuszálva a PdfPig a legjobb választás PDF elemzéshez .NET környezetben.