PdfPig: Zaawansowana ekstrakcja tekstu PDF dla .NET
Czytaj i analizuj zawartość PDF bez zależności - tekst, pozycje, czcionki i metadane
Co to jest PdfPig?
PdfPig to otwartoźródłowa biblioteka .NET skupiająca się na ekstrakcji zawartości z plików PDF bez konieczności używania natywnych zależności. W przeciwieństwie do generatorów PDF, PdfPig specjalizuje się w czytaniu istniejących dokumentów w celu uzyskania dostępu do tekstu, informacji o czcionkach, danych pozycyjnych i struktury dokumentu. Jest szczególnie przydatny do wydobywania danych, analizy zawartości i przetwarzania dokumentów.
Kluczowe zalety PdfPig:
- Brak zależności: Czysta implementacja w C#
- Niskopoziomowy dostęp: Precyzyjne pozycjonowanie tekstu i metryki czcionek
- Wydajność pamięciowa: Obsługa dużych dokumentów z minimalnym obciążeniem
- Gotowość na OCR: Ekstrakcja tekstu z ramkami ograniczającymi do analizy
- Licencja MIT: Darmowy do użytku komercyjnego
Idealny do analizy dokumentów, ekstrakcji tekstu i przetwarzania zawartości PDF.
Dlaczego wybrać PdfPig?
- Dokładność: Poprawnie obsługuje złożone układy tekstu PDF
- Wydajność: Szybszy niż podobne biblioteki .NET
- Przejrzystość: Dostęp do surowych struktur PDF w razie potrzeby
- Aktywny rozwój: Regularne aktualizacje od 2018 roku
- Wieloplatformowość: Działa na .NET Standard 2.0+
Instalacja
PdfPig jest dostępny przez NuGet dla łatwej integracji:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Wymagania systemowe: Środowisko uruchomieniowe zgodne z .NET Standard 2.0
Przykłady kodu
Praktyczne przykłady możliwości PdfPig:
Przykład 1: Podstawowa ekstrakcja tekstu
Ten przykład pokazuje, jak otworzyć dokument PDF i wyodrębnić całą zawartość tekstową zachowując kolejność czytania. PdfPig zapewnia dostęp do każdej litery z jej dokładną pozycją w dokumencie.
Wynik zawiera:
- Surowe dane tekstowe w kolejności czytania
- Numery stron dla każdego segmentu tekstu
- Podstawowe informacje o czcionce
Przykład 2: Zaawansowana analiza pozycyjna
PdfPig wyróżnia się dostarczaniem precyzyjnych danych pozycyjnych dla elementów tekstowych. Ten przykład pokazuje, jak wyodrębnić słowa z ich ramkami ograniczającymi.
Przykład 3: Ekstrakcja czcionek i metadanych
Poza zawartością tekstową, PdfPig zapewnia dostęp do metadanych dokumentu i szczegółowych informacji o czcionkach.
Zaawansowane funkcje
PdfPig obsługuje profesjonalną analizę PDF:
- Ekstrakcja obrazów: Dostęp do osadzonych obrazów:
Ekstrakcja obrazów
using var document = PdfDocument.Open("plik.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Przetwarzanie danych obrazu } }
- Nawigacja po zakładkach: Dostęp do konspektu dokumentu:
Zakładki
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Strona {bookmark.PageNumber}"); }
- Zaszyfrowane PDF-y: Obsługa plików chronionych hasłem:
Zaszyfrowany PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("zaszyfrowany.pdf", options);
PdfPig vs PdfSharp
5 kluczowych różnic między PdfPig a PDFsharp:
- Główna funkcja: PdfPig specjalizuje się w czytaniu/ekstrakcji tekstu i metadanych. PDFsharp skupia się na tworzeniu/edycji dokumentów PDF
- Tekst vs grafika: PdfPig wyodrębnia tekst z dokładnością do piksela. PDFsharp jest zoptymalizowany do rysowania tekstu/kształtów
- Dostęp do dokumentu: PdfPig analizuje istniejące PDF-y, PDFsharp może modyfikować strony
- Zaawansowane funkcje: PdfPig ujawnia szczegóły czcionek i strukturę dokumentu, PDFsharp obsługuje standardy PDF/A
- Zastosowania: PdfPig do wydobywania danych, PDFsharp do generowania raportów
Podsumowanie
PdfPig zapewnia bezkonkurencyjny dostęp do zawartości PDF dla programistów .NET. Idealny do:
- Ekstrakcji danych: Wydobywanie zawartości z raportów
- Analizy dokumentów: Zrozumienie struktury PDF
- Dostępności: Konwersja zawartości PDF do innych formatów
- Przetwarzania wstępnego: Przygotowanie dokumentów do OCR lub ML
Dzięki skupieniu na dokładnej ekstrakcji i niskim zużyciu pamięci, PdfPig jest najlepszym wyborem do analizy PDF w .NET.
Podobne Produkty
- docTR API - Optyczne rozpoznawanie znaków (OCR) w Pythonie
- EasyOCR API – Kompleksowe rozpoznawanie znaków (OCR) w Pythonie
- PaddleOCR API – Wysokowydajne rozpoznawanie znaków (OCR)
- pdfminer.six Biblioteka Pythona | Wyodrębnij tekst z plików PDF
- PyMuPDF Python API | Zaawansowane parsowanie i ekstrakcja PDF