PdfPig: Zaawansowana ekstrakcja tekstu PDF dla .NET

Czytaj i analizuj zawartość PDF bez zależności - tekst, pozycje, czcionki i metadane

Co to jest PdfPig?

PdfPig to otwartoźródłowa biblioteka .NET skupiająca się na ekstrakcji zawartości z plików PDF bez konieczności używania natywnych zależności. W przeciwieństwie do generatorów PDF, PdfPig specjalizuje się w czytaniu istniejących dokumentów w celu uzyskania dostępu do tekstu, informacji o czcionkach, danych pozycyjnych i struktury dokumentu. Jest szczególnie przydatny do wydobywania danych, analizy zawartości i przetwarzania dokumentów.

Kluczowe zalety PdfPig:

Brak zależności: Czysta implementacja w C#
Niskopoziomowy dostęp: Precyzyjne pozycjonowanie tekstu i metryki czcionek
Wydajność pamięciowa: Obsługa dużych dokumentów z minimalnym obciążeniem
Gotowość na OCR: Ekstrakcja tekstu z ramkami ograniczającymi do analizy
Licencja MIT: Darmowy do użytku komercyjnego

Idealny do analizy dokumentów, ekstrakcji tekstu i przetwarzania zawartości PDF.

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Dlaczego wybrać PdfPig?

Dokładność: Poprawnie obsługuje złożone układy tekstu PDF
Wydajność: Szybszy niż podobne biblioteki .NET
Przejrzystość: Dostęp do surowych struktur PDF w razie potrzeby
Aktywny rozwój: Regularne aktualizacje od 2018 roku
Wieloplatformowość: Działa na .NET Standard 2.0+

Instalacja

PdfPig jest dostępny przez NuGet dla łatwej integracji:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Wymagania systemowe: Środowisko uruchomieniowe zgodne z .NET Standard 2.0

Przykłady kodu

Praktyczne przykłady możliwości PdfPig:

Ekstrakcja PdfPig

Przykład 1: Podstawowa ekstrakcja tekstu

Ten przykład pokazuje, jak otworzyć dokument PDF i wyodrębnić całą zawartość tekstową zachowując kolejność czytania. PdfPig zapewnia dostęp do każdej litery z jej dokładną pozycją w dokumencie.

Wynik zawiera:

Surowe dane tekstowe w kolejności czytania
Numery stron dla każdego segmentu tekstu
Podstawowe informacje o czcionce

Przykład 2: Zaawansowana analiza pozycyjna

PdfPig wyróżnia się dostarczaniem precyzyjnych danych pozycyjnych dla elementów tekstowych. Ten przykład pokazuje, jak wyodrębnić słowa z ich ramkami ograniczającymi.

Przykład 3: Ekstrakcja czcionek i metadanych

Poza zawartością tekstową, PdfPig zapewnia dostęp do metadanych dokumentu i szczegółowych informacji o czcionkach.

Zaawansowane funkcje

PdfPig obsługuje profesjonalną analizę PDF:

Ekstrakcja obrazów: Dostęp do osadzonych obrazów:

Ekstrakcja obrazów


    using var document = PdfDocument.Open("plik.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Przetwarzanie danych obrazu
        }
    }

Nawigacja po zakładkach: Dostęp do konspektu dokumentu:

Zakładki


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Strona {bookmark.PageNumber}");
    }

Zaszyfrowane PDF-y: Obsługa plików chronionych hasłem:

Zaszyfrowany PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("zaszyfrowany.pdf", options);

PdfPig vs PdfSharp

5 kluczowych różnic między PdfPig a PDFsharp:

Główna funkcja: PdfPig specjalizuje się w czytaniu/ekstrakcji tekstu i metadanych. PDFsharp skupia się na tworzeniu/edycji dokumentów PDF
Tekst vs grafika: PdfPig wyodrębnia tekst z dokładnością do piksela. PDFsharp jest zoptymalizowany do rysowania tekstu/kształtów
Dostęp do dokumentu: PdfPig analizuje istniejące PDF-y, PDFsharp może modyfikować strony
Zaawansowane funkcje: PdfPig ujawnia szczegóły czcionek i strukturę dokumentu, PDFsharp obsługuje standardy PDF/A
Zastosowania: PdfPig do wydobywania danych, PDFsharp do generowania raportów

Podsumowanie

PdfPig zapewnia bezkonkurencyjny dostęp do zawartości PDF dla programistów .NET. Idealny do:

Ekstrakcji danych: Wydobywanie zawartości z raportów
Analizy dokumentów: Zrozumienie struktury PDF
Dostępności: Konwersja zawartości PDF do innych formatów
Przetwarzania wstępnego: Przygotowanie dokumentów do OCR lub ML

Dzięki skupieniu na dokładnej ekstrakcji i niskim zużyciu pamięci, PdfPig jest najlepszym wyborem do analizy PDF w .NET.