PdfPig: Pengekstrakan Teks PDF Lanjutan untuk .NET

Baca dan analisis kandungan PDF tanpa kebergantungan - teks, posisi, fon dan metadata

Apa itu PdfPig?

PdfPig ialah pustaka .NET sumber terbuka yang fokus pada pengekstrakan kandungan dari fail PDF tanpa kebergantungan natif. Berbeza dengan penjana PDF, PdfPig khusus untuk membaca dokumen sedia ada untuk mengakses teks, maklumat fon, data posisi, dan struktur dokumen. Ia amat berguna untuk perlombongan data, analisis kandungan, dan pemprosesan dokumen.

Kelebihan utama PdfPig:

Tiada kebergantungan: Implementasi tulen C#
Akses peringkat rendah: Kedudukan teks dan metrik fon yang tepat
Cekap memori: Mengendalikan dokumen besar dengan penggunaan minima
Sedia untuk OCR: Ekstrak teks dengan kotak sempadan untuk analisis
Lesen MIT: Percuma untuk kegunaan komersial

Sesuai untuk analisis dokumen, pengekstrakan teks, dan pemprosesan kandungan PDF.

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Mengapa Pilih PdfPig?

Ketepatan: Mengendalikan susun atur teks PDF kompleks dengan betul
Prestasi: Lebih pantas berbanding pustaka .NET serupa
Ketelusan: Akses struktur PDF mentah bila diperlukan
Pembangunan aktif: Kemas kini berkala sejak 2018
Pelbagai platform: Berfungsi pada .NET Standard 2.0+

Pemasangan

PdfPig tersedia melalui NuGet untuk integrasi mudah:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Keperluan Sistem: Runtutan yang serasi dengan .NET Standard 2.0

Contoh Kod

Contoh praktikal keupayaan PdfPig:

Pengekstrakan PdfPig

Contoh 1: Pengekstrakan Teks Asas

Contoh ini menunjukkan cara membuka dokumen PDF dan mengekstrak semua teks sambil mengekalkan susunan bacaan. PdfPig menyediakan akses kepada setiap aksara dengan posisi tepat dalam dokumen.

Output termasuk:

Teks mentah dalam susunan bacaan
Nombor halaman untuk setiap segmen teks
Maklumat fon asas

Contoh 2: Analisis Posisi Lanjutan

PdfPig menyediakan data posisi tepat untuk elemen teks. Contoh ini menunjukkan cara mengekstrak perkataan dengan kotak sempadannya.

Contoh 3: Pengekstrakan Fon dan Metadata

Selain teks, PdfPig menyediakan akses kepada metadata dokumen dan maklumat fon terperinci.

Ciri Lanjutan

PdfPig menyokong analisis PDF profesional:

Pengekstrakan imej: Akses imej terbenam:

Pengekstrakan Imej


    using var document = PdfDocument.Open("file.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Proses data imej
        }
    }

Navigasi penanda buku: Akses rangka dokumen:

Penanda Buku


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Halaman {bookmark.PageNumber}");
    }

PDF disulitkan: Mengendalikan fail dilindungi kata laluan:

PDF Disulitkan


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("encrypted.pdf", options);

PdfPig vs PdfSharp

5 perbezaan utama antara PdfPig dan PDFsharp:

Fungsi Utama: PdfPig khusus untuk membaca/mengekstrak teks dan metadata. PDFsharp fokus pada mencipta/mengedit PDF
Teks vs Grafik: PdfPig mengekstrak teks dengan ketepatan piksel. PDFsharp dioptimumkan untuk melukis teks/bentuk
Akses Dokumen: PdfPig menganalisis PDF sedia ada, manakala PDFsharp boleh mengubah halaman
Ciri Lanjutan: PdfPig mendedahkan butiran fon dan struktur dokumen, PDFsharp menyokong piawaian PDF/A
Kegunaan: PdfPig untuk perlombongan data, PDFsharp untuk penjanaan laporan

Kesimpulan

PdfPig menyediakan akses kandungan PDF yang unggul untuk pembangun .NET. Sesuai untuk:

Pengekstrakan data: Perlombongan kandungan dari laporan
Analisis dokumen: Memahami struktur PDF
Kebolehcapaian: Menukar kandungan PDF ke format lain
Prapemprosesan: Penyediaan dokumen untuk OCR atau ML

Dengan fokus pada ketepatan pengekstrakan dan penggunaan memori rendah, PdfPig ialah pilihan utama untuk analisis PDF dalam .NET.