PdfPig: Pokročilá extrakce textu z PDF pro .NET

Čtěte a analyzujte obsah PDF bez závislostí - text, pozice, fonty a metadata

Co je PdfPig?

PdfPig je open source .NET knihovna specializovaná na extrakci obsahu z PDF souborů bez nutnosti nativních závislostí. Na rozdíl od generátorů PDF se PdfPig zaměřuje na čtení existujících dokumentů pro přístup k textu, informacím o fontech, pozicím a struktuře dokumentu. Je zvláště užitečná pro dolování dat, analýzu obsahu a zpracování dokumentů.

Hlavní výhody PdfPig:

  • Žádné závislosti: Čistá implementace v C#
  • Nízkoúrovňový přístup: Přesné pozicování textu a metriky fontů
  • Paměťově efektivní: Zvládá velké dokumenty s minimální režií
  • Připraveno pro OCR: Extrahuje text s ohraničujícími rámečky pro analýzu
  • MIT licence: Volné pro komerční použití

Ideální pro analýzu dokumentů, extrakci textu a zpracování obsahu PDF.

GitHub

Statistiky GitHubu

Název:
Jazyk:
hvězdy:
Vidlice:
Licence:
Úložiště bylo naposledy aktualizováno v

Proč zvolit PdfPig?

  • Přesnost: Správně zpracovává složité rozložení textu v PDF
  • Výkon: Benchmarky ukazují vyšší rychlost než podobné .NET knihovny
  • Transparentnost: Přístup k surovým strukturám PDF, když je potřeba
  • Aktivní vývoj: Pravidelné aktualizace od roku 2018
  • Multiplatformní: Funguje na .NET Standard 2.0+

Instalace

PdfPig je dostupné přes NuGet pro snadnou integraci:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Systémové požadavky: Runtime kompatibilní s .NET Standard 2.0

Příklady kódu

Praktické příklady možností PdfPig:

Extrakce pomocí PdfPig

Příklad 1: Základní extrakce textu

Tento příklad ukazuje, jak otevřít PDF dokument a extrahovat veškerý textový obsah při zachování pořadí čtení. PdfPig poskytuje přístup ke každému písmenu s jeho přesnou pozicí v dokumentu, což umožňuje pokročilou analýzu rozvržení nad rámec jednoduché extrakce textu.

Výstup obsahuje:

  • Surový textový obsah ve správném pořadí čtení
  • Čísla stránek pro každý textový segment
  • Základní informace o fontech

Příklad 2: Pokročilá pozicionální analýza

PdfPig vyniká v poskytování přesných pozicních dat pro textové elementy. Tento příklad ukazuje, jak extrahovat slova s jejich ohraničujícími rámečky, což umožňuje úkoly jako detekce tabulek, zpracování formulářů a analýzu oblastí obsahu.

Příklad 3: Extrakce fontů a metadat

Nad rámec textového obsahu poskytuje PdfPig přístup k metadatům dokumentu a podrobným informacím o fontech. Tento příklad ukazuje, jak extrahovat vlastnosti dokumentu a analyzovat použití fontů v PDF.

Pokročilé funkce

PdfPig podporuje profesionální analýzu PDF:

  • Extrakce obrázků: Přístup k vloženým obrázkům:

    Extrakce obrázků

    
        using var document = PdfDocument.Open("soubor.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Zpracování obrazových dat
            }
        }
        
    
  • Navigace záložkami: Přístup k osnově dokumentu:

    Záložky

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Strana {bookmark.PageNumber}");
        }
        
    
  • Šifrovaná PDF: Práce s heslem chráněnými soubory:

    Šifrované PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("sifrovane.pdf", options);
        
    

PdfPig vs PdfSharp

5 klíčových rozdílů mezi PdfPig a PDFsharp:

  • Hlavní funkce: PdfPig se specializuje na čtení/extrakci textu, pozic a metadat. PDFsharp se zaměřuje na vytváření/úpravu PDF dokumentů
  • Text vs Grafika: PdfPig extrahuje text s pixelovou přesností (včetně souřadnic). PDFsharp je optimalizován pro kreslení textu/tvarů (reporty, faktury, formuláře)
  • Přístup k dokumentu: PdfPig analyzuje existující PDF, zatímco PDFsharp může upravovat stránky, přidávat obsah, slučovat soubory
  • Pokročilé funkce: PdfPig odhaluje detaily fontů, ohraničující rámečky a strukturu dokumentu, zatímco PDFsharp podporuje standardy PDF/A, obrázky a šifrování
  • Případy použití: PdfPig pro dolování dat, předzpracování OCR, analýzu obsahu, zatímco PDFsharp pro generování reportů, manipulaci s PDF, vyplňování formulářů

Závěr

PdfPig poskytuje nepřekonatelný přístup k obsahu PDF pro .NET vývojáře. Ideální pro:

  • Extrakci dat: Dolování obsahu z reportů a dokumentů
  • Analýzu dokumentů: Porozumění struktuře a rozvržení PDF
  • Dostupnost: Konverze obsahu PDF do jiných formátů
  • Předzpracování: Příprava dokumentů pro OCR nebo ML

Díky zaměření na přesnou extrakci obsahu a nízkou spotřebu paměti je PdfPig tou nejlepší volbou pro analýzu PDF v .NET.

Podobné Produkty

 Czech