PdfPig: .NET için Gelişmiş PDF Metin Çıkarma

Bağımlılık olmadan PDF içeriğini okuyun ve analiz edin - metin, konumlar, yazı tipleri ve meta veriler

PdfPig Nedir?

PdfPig, yerel bağımlılık gerektirmeden PDF dosyalarından içerik çıkarmaya odaklanan açık kaynaklı bir .NET kütüphanesidir. PDF oluşturucuların aksine, PdfPig mevcut belgeleri okumak ve metin, yazı tipi bilgisi, konum verileri ve belge yapısına erişmek için özel olarak tasarlanmıştır. Veri madenciliği, içerik analizi ve belge işleme süreçleri için özellikle değerlidir.

PdfPig'in temel avantajları:

Sıfır bağımlılık: Saf C# uygulaması
Düşük seviye erişim: Hassas metin konumlandırma ve yazı tipi ölçümleri
Hafıza verimliliği: Büyük belgeleri minimum ek yükle yönetir
OCR hazır: Analiz için sınırlayıcı kutularla metin çıkarır
MIT lisanslı: Ticari kullanım için ücretsiz

Belge analizi, metin çıkarma ve PDF içerik işleme için idealdir.

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

Neden PdfPig'i Seçmelisiniz?

Doğruluk: Karmaşık PDF metin düzenlerini doğru şekilde işler
Performans: Benzer .NET kütüphanelerinden daha hızlı
Şeffaflık: Gerektiğinde ham PDF yapılarına erişim
Aktif geliştirme: 2018'den beri düzenli güncellemeler
Çoklu platform: .NET Standard 2.0+ üzerinde çalışır

Kurulum

PdfPig, kolay entegrasyon için NuGet üzerinden mevcuttur:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Sistem gereksinimleri: .NET Standard 2.0 uyumlu çalışma zamanı

Kod Örnekleri

PdfPig'in yeteneklerine dair pratik örnekler:

PdfPig Çıkarımı

Örnek 1: Temel Metin Çıkarma

Bu örnek, bir PDF belgesinin nasıl açılacağını ve okuma sırasını koruyarak tüm metin içeriğinin nasıl çıkarılacağını gösterir. PdfPig, belgedeki her harfe tam konumuyla erişim sağlar.

Çıktı şunları içerir:

Okuma sırasına göre ham metin içeriği
Her metin segmenti için sayfa numaraları
Temel yazı tipi bilgileri

Örnek 2: Gelişmiş Konumsal Analiz

PdfPig, metin öğeleri için hassas konumsal veri sağlamada üstündür. Bu örnek, kelimelerin sınırlayıcı kutularıyla nasıl çıkarılacağını gösterir.

Örnek 3: Yazı Tipi ve Meta Veri Çıkarımı

Metin içeriğinin yanı sıra, PdfPig belge meta verilerine ve ayrıntılı yazı tipi bilgisine erişim sağlar.

Gelişmiş Özellikler

PdfPig profesyonel PDF analizini destekler:

Görüntü çıkarma: Gömülü görüntülere erişim:

Görüntü Çıkarma


    using var document = PdfDocument.Open("dosya.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Görüntü verisini işle
        }
    }

Yer imi gezintisi: Belge anahattına erişim:

Yer İşaretleri


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Sayfa {bookmark.PageNumber}");
    }

Şifrelenmiş PDF'ler: Parola korumalı dosyaları yönetme:

Şifrelenmiş PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("sifreli.pdf", options);

PdfPig vs PdfSharp

PdfPig ve PDFsharp arasındaki 5 temel fark:

Temel işlev: PdfPig metin/meta veri okuma/çıkarma konusunda uzmanlaşmıştır. PDFsharp PDF belgeleri oluşturma/düzenleme odaklıdır
Metin vs grafik: PdfPig piksel hassasiyetinde metin çıkarır. PDFsharp metin/şekil çizimi için optimize edilmiştir
Belge erişimi: PdfPig mevcut PDF'leri analiz eder, PDFsharp sayfaları değiştirebilir
Gelişmiş özellikler: PdfPig yazı tipi detaylarını ve belge yapısını ortaya çıkarır, PDFsharp PDF/A standartlarını destekler
Kullanım senaryoları: PdfPig veri madenciliği için, PDFsharp rapor oluşturma için

Sonuç

PdfPig, .NET geliştiricileri için eşsiz PDF içerik erişimi sunar. Şunlar için idealdir:

Veri çıkarma: Raporlardan içerik madenciliği
Belge analizi: PDF yapısını anlama
Erişilebilirlik: PDF içeriğini diğer formatlara dönüştürme
Ön işleme: OCR veya ML için belge hazırlama

Hassas çıkarma ve düşük bellek kullanımı odaklı yapısıyla PdfPig, .NET'te PDF analizi için en iyi seçimdir.