1. Produkty
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Zaawansowana ekstrakcja tekstu PDF dla .NET

Czytaj i analizuj zawartość PDF bez zależności - tekst, pozycje, czcionki i metadane

Co to jest PdfPig?

PdfPig to otwartoźródłowa biblioteka .NET skupiająca się na ekstrakcji zawartości z plików PDF bez konieczności używania natywnych zależności. W przeciwieństwie do generatorów PDF, PdfPig specjalizuje się w czytaniu istniejących dokumentów w celu uzyskania dostępu do tekstu, informacji o czcionkach, danych pozycyjnych i struktury dokumentu. Jest szczególnie przydatny do wydobywania danych, analizy zawartości i przetwarzania dokumentów.

Kluczowe zalety PdfPig:

  • Brak zależności: Czysta implementacja w C#
  • Niskopoziomowy dostęp: Precyzyjne pozycjonowanie tekstu i metryki czcionek
  • Wydajność pamięciowa: Obsługa dużych dokumentów z minimalnym obciążeniem
  • Gotowość na OCR: Ekstrakcja tekstu z ramkami ograniczającymi do analizy
  • Licencja MIT: Darmowy do użytku komercyjnego

Idealny do analizy dokumentów, ekstrakcji tekstu i przetwarzania zawartości PDF.

GitHub

Statystyki GitHuba

Nazwa:
Język:
Gwiazdy:
Widły:
Licencja:
Repozytorium zostało ostatnio zaktualizowane o godzinie

Dlaczego wybrać PdfPig?

  • Dokładność: Poprawnie obsługuje złożone układy tekstu PDF
  • Wydajność: Szybszy niż podobne biblioteki .NET
  • Przejrzystość: Dostęp do surowych struktur PDF w razie potrzeby
  • Aktywny rozwój: Regularne aktualizacje od 2018 roku
  • Wieloplatformowość: Działa na .NET Standard 2.0+

Instalacja

PdfPig jest dostępny przez NuGet dla łatwej integracji:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Wymagania systemowe: Środowisko uruchomieniowe zgodne z .NET Standard 2.0

Przykłady kodu

Praktyczne przykłady możliwości PdfPig:

Ekstrakcja PdfPig

Przykład 1: Podstawowa ekstrakcja tekstu

Ten przykład pokazuje, jak otworzyć dokument PDF i wyodrębnić całą zawartość tekstową zachowując kolejność czytania. PdfPig zapewnia dostęp do każdej litery z jej dokładną pozycją w dokumencie.

Wynik zawiera:

  • Surowe dane tekstowe w kolejności czytania
  • Numery stron dla każdego segmentu tekstu
  • Podstawowe informacje o czcionce

Przykład 2: Zaawansowana analiza pozycyjna

PdfPig wyróżnia się dostarczaniem precyzyjnych danych pozycyjnych dla elementów tekstowych. Ten przykład pokazuje, jak wyodrębnić słowa z ich ramkami ograniczającymi.

Przykład 3: Ekstrakcja czcionek i metadanych

Poza zawartością tekstową, PdfPig zapewnia dostęp do metadanych dokumentu i szczegółowych informacji o czcionkach.

Zaawansowane funkcje

PdfPig obsługuje profesjonalną analizę PDF:

  • Ekstrakcja obrazów: Dostęp do osadzonych obrazów:

    Ekstrakcja obrazów

    
        using var document = PdfDocument.Open("plik.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Przetwarzanie danych obrazu
            }
        }
        
    
  • Nawigacja po zakładkach: Dostęp do konspektu dokumentu:

    Zakładki

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Strona {bookmark.PageNumber}");
        }
        
    
  • Zaszyfrowane PDF-y: Obsługa plików chronionych hasłem:

    Zaszyfrowany PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("zaszyfrowany.pdf", options);
        
    

PdfPig vs PdfSharp

5 kluczowych różnic między PdfPig a PDFsharp:

  • Główna funkcja: PdfPig specjalizuje się w czytaniu/ekstrakcji tekstu i metadanych. PDFsharp skupia się na tworzeniu/edycji dokumentów PDF
  • Tekst vs grafika: PdfPig wyodrębnia tekst z dokładnością do piksela. PDFsharp jest zoptymalizowany do rysowania tekstu/kształtów
  • Dostęp do dokumentu: PdfPig analizuje istniejące PDF-y, PDFsharp może modyfikować strony
  • Zaawansowane funkcje: PdfPig ujawnia szczegóły czcionek i strukturę dokumentu, PDFsharp obsługuje standardy PDF/A
  • Zastosowania: PdfPig do wydobywania danych, PDFsharp do generowania raportów

Podsumowanie

PdfPig zapewnia bezkonkurencyjny dostęp do zawartości PDF dla programistów .NET. Idealny do:

  • Ekstrakcji danych: Wydobywanie zawartości z raportów
  • Analizy dokumentów: Zrozumienie struktury PDF
  • Dostępności: Konwersja zawartości PDF do innych formatów
  • Przetwarzania wstępnego: Przygotowanie dokumentów do OCR lub ML

Dzięki skupieniu na dokładnej ekstrakcji i niskim zużyciu pamięci, PdfPig jest najlepszym wyborem do analizy PDF w .NET.

Podobne Produkty

 Polish