PdfPig: .NET için Gelişmiş PDF Metin Çıkarma

Bağımlılık olmadan PDF içeriğini okuyun ve analiz edin - metin, konumlar, yazı tipleri ve meta veriler

PdfPig Nedir?

PdfPig, yerel bağımlılık gerektirmeden PDF dosyalarından içerik çıkarmaya odaklanan açık kaynaklı bir .NET kütüphanesidir. PDF oluşturucuların aksine, PdfPig mevcut belgeleri okumak ve metin, yazı tipi bilgisi, konum verileri ve belge yapısına erişmek için özel olarak tasarlanmıştır. Veri madenciliği, içerik analizi ve belge işleme süreçleri için özellikle değerlidir.

PdfPig'in temel avantajları:

  • Sıfır bağımlılık: Saf C# uygulaması
  • Düşük seviye erişim: Hassas metin konumlandırma ve yazı tipi ölçümleri
  • Hafıza verimliliği: Büyük belgeleri minimum ek yükle yönetir
  • OCR hazır: Analiz için sınırlayıcı kutularla metin çıkarır
  • MIT lisanslı: Ticari kullanım için ücretsiz

Belge analizi, metin çıkarma ve PDF içerik işleme için idealdir.

GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

Neden PdfPig'i Seçmelisiniz?

  • Doğruluk: Karmaşık PDF metin düzenlerini doğru şekilde işler
  • Performans: Benzer .NET kütüphanelerinden daha hızlı
  • Şeffaflık: Gerektiğinde ham PDF yapılarına erişim
  • Aktif geliştirme: 2018'den beri düzenli güncellemeler
  • Çoklu platform: .NET Standard 2.0+ üzerinde çalışır

Kurulum

PdfPig, kolay entegrasyon için NuGet üzerinden mevcuttur:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistem gereksinimleri: .NET Standard 2.0 uyumlu çalışma zamanı

Kod Örnekleri

PdfPig'in yeteneklerine dair pratik örnekler:

PdfPig Çıkarımı

Örnek 1: Temel Metin Çıkarma

Bu örnek, bir PDF belgesinin nasıl açılacağını ve okuma sırasını koruyarak tüm metin içeriğinin nasıl çıkarılacağını gösterir. PdfPig, belgedeki her harfe tam konumuyla erişim sağlar.

Çıktı şunları içerir:

  • Okuma sırasına göre ham metin içeriği
  • Her metin segmenti için sayfa numaraları
  • Temel yazı tipi bilgileri

Örnek 2: Gelişmiş Konumsal Analiz

PdfPig, metin öğeleri için hassas konumsal veri sağlamada üstündür. Bu örnek, kelimelerin sınırlayıcı kutularıyla nasıl çıkarılacağını gösterir.

Örnek 3: Yazı Tipi ve Meta Veri Çıkarımı

Metin içeriğinin yanı sıra, PdfPig belge meta verilerine ve ayrıntılı yazı tipi bilgisine erişim sağlar.

Gelişmiş Özellikler

PdfPig profesyonel PDF analizini destekler:

  • Görüntü çıkarma: Gömülü görüntülere erişim:

    Görüntü Çıkarma

    
        using var document = PdfDocument.Open("dosya.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Görüntü verisini işle
            }
        }
        
    
  • Yer imi gezintisi: Belge anahattına erişim:

    Yer İşaretleri

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Sayfa {bookmark.PageNumber}");
        }
        
    
  • Şifrelenmiş PDF'ler: Parola korumalı dosyaları yönetme:

    Şifrelenmiş PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("sifreli.pdf", options);
        
    

PdfPig vs PdfSharp

PdfPig ve PDFsharp arasındaki 5 temel fark:

  • Temel işlev: PdfPig metin/meta veri okuma/çıkarma konusunda uzmanlaşmıştır. PDFsharp PDF belgeleri oluşturma/düzenleme odaklıdır
  • Metin vs grafik: PdfPig piksel hassasiyetinde metin çıkarır. PDFsharp metin/şekil çizimi için optimize edilmiştir
  • Belge erişimi: PdfPig mevcut PDF'leri analiz eder, PDFsharp sayfaları değiştirebilir
  • Gelişmiş özellikler: PdfPig yazı tipi detaylarını ve belge yapısını ortaya çıkarır, PDFsharp PDF/A standartlarını destekler
  • Kullanım senaryoları: PdfPig veri madenciliği için, PDFsharp rapor oluşturma için

Sonuç

PdfPig, .NET geliştiricileri için eşsiz PDF içerik erişimi sunar. Şunlar için idealdir:

  • Veri çıkarma: Raporlardan içerik madenciliği
  • Belge analizi: PDF yapısını anlama
  • Erişilebilirlik: PDF içeriğini diğer formatlara dönüştürme
  • Ön işleme: OCR veya ML için belge hazırlama

Hassas çıkarma ve düşük bellek kullanımı odaklı yapısıyla PdfPig, .NET'te PDF analizi için en iyi seçimdir.

Benzer Ürünler

 Türkçe