PdfPig: Trích xuất Văn bản PDF Nâng cao cho .NET

Đọc và phân tích nội dung PDF không phụ thuộc - văn bản, vị trí, phông chữ và siêu dữ liệu

PdfPig là gì?

PdfPig là thư viện .NET mã nguồn mở tập trung vào việc trích xuất nội dung từ file PDF mà không cần phụ thuộc bên ngoài. Khác với bộ tạo PDF, PdfPig chuyên về đọc tài liệu có sẵn để truy cập văn bản, thông tin phông chữ, dữ liệu vị trí và cấu trúc tài liệu. Đặc biệt hữu ích cho khai thác dữ liệu, phân tích nội dung và xử lý tài liệu.

Ưu điểm chính của PdfPig:

Không phụ thuộc: Triển khai thuần C#
Truy cập cấp thấp: Định vị văn bản chính xác và số liệu phông chữ
Hiệu quả bộ nhớ: Xử lý tài liệu lớn với chi phí tối thiểu
Sẵn sàng cho OCR: Trích xuất văn bản với khung giới hạn để phân tích
Giấy phép MIT: Miễn phí cho mục đích thương mại

Lý tưởng cho phân tích tài liệu, trích xuất văn bản và xử lý nội dung PDF.

Thống kê GitHub

Tên:
Ngôn ngữ:
Ngôi sao:
Nĩa:
Giấy phép:
Kho lưu trữ được cập nhật lần cuối lúc

Tại sao chọn PdfPig?

Độ chính xác: Xử lý đúng bố cục văn bản PDF phức tạp
Hiệu suất: Nhanh hơn các thư viện .NET tương tự
Minh bạch: Truy cập cấu trúc PDF thô khi cần
Phát triển tích cực: Cập nhật thường xuyên từ 2018
Đa nền tảng: Hoạt động trên .NET Standard 2.0+

Cài đặt

PdfPig có sẵn qua NuGet để tích hợp dễ dàng:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Yêu cầu hệ thống: Môi trường thực thi tương thích .NET Standard 2.0

Ví dụ mã

Ví dụ thực tế về khả năng của PdfPig:

Trích xuất PdfPig

Ví dụ 1: Trích xuất Văn bản Cơ bản

Ví dụ này minh họa cách mở tài liệu PDF và trích xuất toàn bộ nội dung văn bản trong khi bảo toàn thứ tự đọc. PdfPig cung cấp quyền truy cập vào từng ký tự với vị trí chính xác trong tài liệu.

Kết quả bao gồm:

Nội dung văn bản thô theo thứ tự đọc
Số trang cho mỗi đoạn văn bản
Thông tin phông chữ cơ bản

Ví dụ 2: Phân tích Vị trí Nâng cao

PdfPig xuất sắc trong việc cung cấp dữ liệu vị trí chính xác cho các phần tử văn bản. Ví dụ này cho thấy cách trích xuất từ với khung giới hạn của chúng.

Ví dụ 3: Trích xuất Phông chữ và Siêu dữ liệu

Ngoài nội dung văn bản, PdfPig cung cấp quyền truy cập vào siêu dữ liệu tài liệu và thông tin chi tiết về phông chữ.

Tính năng Nâng cao

PdfPig hỗ trợ phân tích PDF chuyên nghiệp:

Trích xuất hình ảnh: Truy cập hình ảnh nhúng:

Trích xuất Hình ảnh


    using var document = PdfDocument.Open("tệp.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Xử lý dữ liệu hình ảnh
        }
    }

Điều hướng bookmark: Truy cập dàn ý tài liệu:

Bookmark


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Trang {bookmark.PageNumber}");
    }

PDF mã hóa: Xử lý tệp được bảo vệ bằng mật khẩu:

PDF Mã hóa


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("mã_hóa.pdf", options);

PdfPig vs PdfSharp

5 khác biệt chính giữa PdfPig và PDFsharp:

Chức năng chính: PdfPig chuyên đọc/trích xuất văn bản và siêu dữ liệu. PDFsharp tập trung vào tạo/chỉnh sửa tài liệu PDF
Văn bản vs đồ họa: PdfPig trích xuất văn bản với độ chính xác pixel. PDFsharp được tối ưu để vẽ văn bản/hình dạng
Truy cập tài liệu: PdfPig phân tích PDF hiện có, PDFsharp có thể sửa đổi trang
Tính năng nâng cao: PdfPig tiết lộ chi tiết phông chữ và cấu trúc, PDFsharp hỗ trợ tiêu chuẩn PDF/A
Trường hợp sử dụng: PdfPig cho khai thác dữ liệu, PDFsharp cho tạo báo cáo

Kết luận

PdfPig cung cấp quyền truy cập nội dung PDF vô song cho nhà phát triển .NET. Lý tưởng cho:

Trích xuất dữ liệu: Khai thác nội dung từ báo cáo
Phân tích tài liệu: Hiểu cấu trúc PDF
Khả năng tiếp cận: Chuyển đổi nội dung PDF sang định dạng khác
Tiền xử lý: Chuẩn bị tài liệu cho OCR hoặc ML

Với trọng tâm là trích xuất chính xác và sử dụng bộ nhớ thấp, PdfPig là lựa chọn hàng đầu để phân tích PDF trong .NET.