PdfPig: .NET için Gelişmiş PDF Metin Çıkarma
Bağımlılık olmadan PDF içeriğini okuyun ve analiz edin - metin, konumlar, yazı tipleri ve meta veriler
PdfPig Nedir?
PdfPig, yerel bağımlılık gerektirmeden PDF dosyalarından içerik çıkarmaya odaklanan açık kaynaklı bir .NET kütüphanesidir. PDF oluşturucuların aksine, PdfPig mevcut belgeleri okumak ve metin, yazı tipi bilgisi, konum verileri ve belge yapısına erişmek için özel olarak tasarlanmıştır. Veri madenciliği, içerik analizi ve belge işleme süreçleri için özellikle değerlidir.
PdfPig'in temel avantajları:
- Sıfır bağımlılık: Saf C# uygulaması
- Düşük seviye erişim: Hassas metin konumlandırma ve yazı tipi ölçümleri
- Hafıza verimliliği: Büyük belgeleri minimum ek yükle yönetir
- OCR hazır: Analiz için sınırlayıcı kutularla metin çıkarır
- MIT lisanslı: Ticari kullanım için ücretsiz
Belge analizi, metin çıkarma ve PDF içerik işleme için idealdir.
Neden PdfPig'i Seçmelisiniz?
- Doğruluk: Karmaşık PDF metin düzenlerini doğru şekilde işler
- Performans: Benzer .NET kütüphanelerinden daha hızlı
- Şeffaflık: Gerektiğinde ham PDF yapılarına erişim
- Aktif geliştirme: 2018'den beri düzenli güncellemeler
- Çoklu platform: .NET Standard 2.0+ üzerinde çalışır
Kurulum
PdfPig, kolay entegrasyon için NuGet üzerinden mevcuttur:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Sistem gereksinimleri: .NET Standard 2.0 uyumlu çalışma zamanı
Kod Örnekleri
PdfPig'in yeteneklerine dair pratik örnekler:
Örnek 1: Temel Metin Çıkarma
Bu örnek, bir PDF belgesinin nasıl açılacağını ve okuma sırasını koruyarak tüm metin içeriğinin nasıl çıkarılacağını gösterir. PdfPig, belgedeki her harfe tam konumuyla erişim sağlar.
Çıktı şunları içerir:
- Okuma sırasına göre ham metin içeriği
- Her metin segmenti için sayfa numaraları
- Temel yazı tipi bilgileri
Örnek 2: Gelişmiş Konumsal Analiz
PdfPig, metin öğeleri için hassas konumsal veri sağlamada üstündür. Bu örnek, kelimelerin sınırlayıcı kutularıyla nasıl çıkarılacağını gösterir.
Örnek 3: Yazı Tipi ve Meta Veri Çıkarımı
Metin içeriğinin yanı sıra, PdfPig belge meta verilerine ve ayrıntılı yazı tipi bilgisine erişim sağlar.
Gelişmiş Özellikler
PdfPig profesyonel PDF analizini destekler:
- Görüntü çıkarma: Gömülü görüntülere erişim:
Görüntü Çıkarma
using var document = PdfDocument.Open("dosya.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Görüntü verisini işle } }
- Yer imi gezintisi: Belge anahattına erişim:
Yer İşaretleri
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Sayfa {bookmark.PageNumber}"); }
- Şifrelenmiş PDF'ler: Parola korumalı dosyaları yönetme:
Şifrelenmiş PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("sifreli.pdf", options);
PdfPig vs PdfSharp
PdfPig ve PDFsharp arasındaki 5 temel fark:
- Temel işlev: PdfPig metin/meta veri okuma/çıkarma konusunda uzmanlaşmıştır. PDFsharp PDF belgeleri oluşturma/düzenleme odaklıdır
- Metin vs grafik: PdfPig piksel hassasiyetinde metin çıkarır. PDFsharp metin/şekil çizimi için optimize edilmiştir
- Belge erişimi: PdfPig mevcut PDF'leri analiz eder, PDFsharp sayfaları değiştirebilir
- Gelişmiş özellikler: PdfPig yazı tipi detaylarını ve belge yapısını ortaya çıkarır, PDFsharp PDF/A standartlarını destekler
- Kullanım senaryoları: PdfPig veri madenciliği için, PDFsharp rapor oluşturma için
Sonuç
PdfPig, .NET geliştiricileri için eşsiz PDF içerik erişimi sunar. Şunlar için idealdir:
- Veri çıkarma: Raporlardan içerik madenciliği
- Belge analizi: PDF yapısını anlama
- Erişilebilirlik: PDF içeriğini diğer formatlara dönüştürme
- Ön işleme: OCR veya ML için belge hazırlama
Hassas çıkarma ve düşük bellek kullanımı odaklı yapısıyla PdfPig, .NET'te PDF analizi için en iyi seçimdir.