PdfPig: Pokročilá extrakce textu z PDF pro .NET
Čtěte a analyzujte obsah PDF bez závislostí - text, pozice, fonty a metadata
Co je PdfPig?
PdfPig je open source .NET knihovna specializovaná na extrakci obsahu z PDF souborů bez nutnosti nativních závislostí. Na rozdíl od generátorů PDF se PdfPig zaměřuje na čtení existujících dokumentů pro přístup k textu, informacím o fontech, pozicím a struktuře dokumentu. Je zvláště užitečná pro dolování dat, analýzu obsahu a zpracování dokumentů.
Hlavní výhody PdfPig:
- Žádné závislosti: Čistá implementace v C#
- Nízkoúrovňový přístup: Přesné pozicování textu a metriky fontů
- Paměťově efektivní: Zvládá velké dokumenty s minimální režií
- Připraveno pro OCR: Extrahuje text s ohraničujícími rámečky pro analýzu
- MIT licence: Volné pro komerční použití
Ideální pro analýzu dokumentů, extrakci textu a zpracování obsahu PDF.
Proč zvolit PdfPig?
- Přesnost: Správně zpracovává složité rozložení textu v PDF
- Výkon: Benchmarky ukazují vyšší rychlost než podobné .NET knihovny
- Transparentnost: Přístup k surovým strukturám PDF, když je potřeba
- Aktivní vývoj: Pravidelné aktualizace od roku 2018
- Multiplatformní: Funguje na .NET Standard 2.0+
Instalace
PdfPig je dostupné přes NuGet pro snadnou integraci:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Systémové požadavky: Runtime kompatibilní s .NET Standard 2.0
Příklady kódu
Praktické příklady možností PdfPig:
Příklad 1: Základní extrakce textu
Tento příklad ukazuje, jak otevřít PDF dokument a extrahovat veškerý textový obsah při zachování pořadí čtení. PdfPig poskytuje přístup ke každému písmenu s jeho přesnou pozicí v dokumentu, což umožňuje pokročilou analýzu rozvržení nad rámec jednoduché extrakce textu.
Výstup obsahuje:
- Surový textový obsah ve správném pořadí čtení
- Čísla stránek pro každý textový segment
- Základní informace o fontech
Příklad 2: Pokročilá pozicionální analýza
PdfPig vyniká v poskytování přesných pozicních dat pro textové elementy. Tento příklad ukazuje, jak extrahovat slova s jejich ohraničujícími rámečky, což umožňuje úkoly jako detekce tabulek, zpracování formulářů a analýzu oblastí obsahu.
Příklad 3: Extrakce fontů a metadat
Nad rámec textového obsahu poskytuje PdfPig přístup k metadatům dokumentu a podrobným informacím o fontech. Tento příklad ukazuje, jak extrahovat vlastnosti dokumentu a analyzovat použití fontů v PDF.
Pokročilé funkce
PdfPig podporuje profesionální analýzu PDF:
- Extrakce obrázků: Přístup k vloženým obrázkům:
Extrakce obrázků
using var document = PdfDocument.Open("soubor.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Zpracování obrazových dat } }
- Navigace záložkami: Přístup k osnově dokumentu:
Záložky
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Strana {bookmark.PageNumber}"); }
- Šifrovaná PDF: Práce s heslem chráněnými soubory:
Šifrované PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("sifrovane.pdf", options);
PdfPig vs PdfSharp
5 klíčových rozdílů mezi PdfPig a PDFsharp:
- Hlavní funkce: PdfPig se specializuje na čtení/extrakci textu, pozic a metadat. PDFsharp se zaměřuje na vytváření/úpravu PDF dokumentů
- Text vs Grafika: PdfPig extrahuje text s pixelovou přesností (včetně souřadnic). PDFsharp je optimalizován pro kreslení textu/tvarů (reporty, faktury, formuláře)
- Přístup k dokumentu: PdfPig analyzuje existující PDF, zatímco PDFsharp může upravovat stránky, přidávat obsah, slučovat soubory
- Pokročilé funkce: PdfPig odhaluje detaily fontů, ohraničující rámečky a strukturu dokumentu, zatímco PDFsharp podporuje standardy PDF/A, obrázky a šifrování
- Případy použití: PdfPig pro dolování dat, předzpracování OCR, analýzu obsahu, zatímco PDFsharp pro generování reportů, manipulaci s PDF, vyplňování formulářů
Závěr
PdfPig poskytuje nepřekonatelný přístup k obsahu PDF pro .NET vývojáře. Ideální pro:
- Extrakci dat: Dolování obsahu z reportů a dokumentů
- Analýzu dokumentů: Porozumění struktuře a rozvržení PDF
- Dostupnost: Konverze obsahu PDF do jiných formátů
- Předzpracování: Příprava dokumentů pro OCR nebo ML
Díky zaměření na přesnou extrakci obsahu a nízkou spotřebu paměti je PdfPig tou nejlepší volbou pro analýzu PDF v .NET.