PdfPig: Pokročilá extrakce textu z PDF pro .NET

Čtěte a analyzujte obsah PDF bez závislostí - text, pozice, fonty a metadata

Co je PdfPig?

PdfPig je open source .NET knihovna specializovaná na extrakci obsahu z PDF souborů bez nutnosti nativních závislostí. Na rozdíl od generátorů PDF se PdfPig zaměřuje na čtení existujících dokumentů pro přístup k textu, informacím o fontech, pozicím a struktuře dokumentu. Je zvláště užitečná pro dolování dat, analýzu obsahu a zpracování dokumentů.

Hlavní výhody PdfPig:

Žádné závislosti: Čistá implementace v C#
Nízkoúrovňový přístup: Přesné pozicování textu a metriky fontů
Paměťově efektivní: Zvládá velké dokumenty s minimální režií
Připraveno pro OCR: Extrahuje text s ohraničujícími rámečky pro analýzu
MIT licence: Volné pro komerční použití

Ideální pro analýzu dokumentů, extrakci textu a zpracování obsahu PDF.

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Proč zvolit PdfPig?

Přesnost: Správně zpracovává složité rozložení textu v PDF
Výkon: Benchmarky ukazují vyšší rychlost než podobné .NET knihovny
Transparentnost: Přístup k surovým strukturám PDF, když je potřeba
Aktivní vývoj: Pravidelné aktualizace od roku 2018
Multiplatformní: Funguje na .NET Standard 2.0+

Instalace

PdfPig je dostupné přes NuGet pro snadnou integraci:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systémové požadavky: Runtime kompatibilní s .NET Standard 2.0

Příklady kódu

Praktické příklady možností PdfPig:

Extrakce pomocí PdfPig

Příklad 1: Základní extrakce textu

Tento příklad ukazuje, jak otevřít PDF dokument a extrahovat veškerý textový obsah při zachování pořadí čtení. PdfPig poskytuje přístup ke každému písmenu s jeho přesnou pozicí v dokumentu, což umožňuje pokročilou analýzu rozvržení nad rámec jednoduché extrakce textu.

Výstup obsahuje:

Surový textový obsah ve správném pořadí čtení
Čísla stránek pro každý textový segment
Základní informace o fontech

Příklad 2: Pokročilá pozicionální analýza

PdfPig vyniká v poskytování přesných pozicních dat pro textové elementy. Tento příklad ukazuje, jak extrahovat slova s jejich ohraničujícími rámečky, což umožňuje úkoly jako detekce tabulek, zpracování formulářů a analýzu oblastí obsahu.

Příklad 3: Extrakce fontů a metadat

Nad rámec textového obsahu poskytuje PdfPig přístup k metadatům dokumentu a podrobným informacím o fontech. Tento příklad ukazuje, jak extrahovat vlastnosti dokumentu a analyzovat použití fontů v PDF.

Pokročilé funkce

PdfPig podporuje profesionální analýzu PDF:

Extrakce obrázků: Přístup k vloženým obrázkům:

Extrakce obrázků


    using var document = PdfDocument.Open("soubor.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Zpracování obrazových dat
        }
    }

Navigace záložkami: Přístup k osnově dokumentu:

Záložky


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Strana {bookmark.PageNumber}");
    }

Šifrovaná PDF: Práce s heslem chráněnými soubory:

Šifrované PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("sifrovane.pdf", options);

PdfPig vs PdfSharp

5 klíčových rozdílů mezi PdfPig a PDFsharp:

Hlavní funkce: PdfPig se specializuje na čtení/extrakci textu, pozic a metadat. PDFsharp se zaměřuje na vytváření/úpravu PDF dokumentů
Text vs Grafika: PdfPig extrahuje text s pixelovou přesností (včetně souřadnic). PDFsharp je optimalizován pro kreslení textu/tvarů (reporty, faktury, formuláře)
Přístup k dokumentu: PdfPig analyzuje existující PDF, zatímco PDFsharp může upravovat stránky, přidávat obsah, slučovat soubory
Pokročilé funkce: PdfPig odhaluje detaily fontů, ohraničující rámečky a strukturu dokumentu, zatímco PDFsharp podporuje standardy PDF/A, obrázky a šifrování
Případy použití: PdfPig pro dolování dat, předzpracování OCR, analýzu obsahu, zatímco PDFsharp pro generování reportů, manipulaci s PDF, vyplňování formulářů

Závěr

PdfPig poskytuje nepřekonatelný přístup k obsahu PDF pro .NET vývojáře. Ideální pro:

Extrakci dat: Dolování obsahu z reportů a dokumentů
Analýzu dokumentů: Porozumění struktuře a rozvržení PDF
Dostupnost: Konverze obsahu PDF do jiných formátů
Předzpracování: Příprava dokumentů pro OCR nebo ML

Díky zaměření na přesnou extrakci obsahu a nízkou spotřebu paměti je PdfPig tou nejlepší volbou pro analýzu PDF v .NET.