PdfPig: Разширено извличане на текст от PDF за .NET

Четене и анализ на PDF съдържание без зависимости - текст, позиции, шрифтове и метаданни

Какво е PdfPig?

PdfPig е библиотека с отворен код за .NET, фокусирана върху извличането на съдържание от PDF файлове без нуждата от външни зависимости. За разлика от генераторите на PDF, PdfPig е специализиран в четенето на съществуващи документи за достъп до текст, информация за шрифтове, позиционни данни и структура на документа. Особено полезен за извличане на данни, анализ на съдържание и обработка на документи.

Основни предимства на PdfPig:

Нулеви зависимости: Чиста реализация на C#
Достъп на ниско ниво: Точно позициониране на текст и метрики на шрифтове
Ефективна памет: Обработва големи документи с минимални изисквания
Готов за OCR: Извлича текст с ограничаващи кутии за анализ
MIT лиценз: Безплатен за комерсиална употреба

Идеален за анализ на документи, извличане на текст и обработка на PDF съдържание.

Статистика на GitHub

Име:
език:
звезди:
Вилици:
Разрешително:
Хранилището е последно актуализирано на

Защо да изберете PdfPig?

Точност: Коректна обработка на сложни PDF оформления
Производителност: По-бърз от подобни .NET библиотеки в тестове
Прозрачност: Достъп до сурови PDF структури при нужда
Активен разработка: Редовни актуализации от 2018 г.
Кръстосана платформа: Работи на .NET Standard 2.0+

Инсталация

PdfPig е достъпен чрез NuGet за лесно интегриране:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Системни изисквания: Съвместима с .NET Standard 2.0

Кодови примери

Практически примери за възможностите на PdfPig:

Извличане с PdfPig

Пример 1: Основно извличане на текст

Този пример демонстрира как да отворите PDF документ и извлечете целия текстово съдържание, запазвайки реда на четене. PdfPig предоставя достъп до всяка буква с точната й позиция в документа, позволявайки напреднал анализ на оформлението.

Резултатът включва:

Суров текстово съдържание в ред на четене
Номера на страници за всеки текстов сегмент
Основна информация за шрифта

Пример 2: Напреднал позиционен анализ

PdfPig отлично се справя с предоставянето на точни позиционни данни за текстови елементи. Този пример показва как да извлечете думи с техните ограничаващи кутии, позволявайки задачи като откриване на таблици, обработка на форми и анализ на съдържателни региони.

Пример 3: Извличане на шрифтове и метаданни

Освен текстово съдържание, PdfPig предоставя достъп до метаданни на документа и подробна информация за шрифтовете. Този пример демонстрира извличане на свойства на документа и анализ на използваните шрифтове в PDF файла.

Разширени функции

PdfPig поддържа професионален PDF анализ:

Извличане на изображения: Достъп до вградени изображения:

Извличане на изображения


    using var document = PdfDocument.Open("file.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Обработка на изображението
        }
    }

Навигация по отметки: Достъп до структурата на документа:

Отметки


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Страница {bookmark.PageNumber}");
    }

Криптирани PDF: Работа с файлове, защитени с парола:

Криптиран PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("encrypted.pdf", options);

PdfPig срещу PdfSharp

Основни разлики между PdfPig и PDFsharp:

Основна функция: PdfPig е специализиран в четене/извличане на текст, позиции и метаданни. PDFsharp се фокусира върху създаване/редактиране на PDF документи
Текст срещу графика: PdfPig извлича текст с пикселенa точност (включително координати). PDFsharp е оптимизиран за рисуване на текст/форми (отчети, фактури, формуляри)
Достъп до документ: PdfPig анализира съществуващи PDF-и, докато PDFsharp може да променя страници, добавя съдържание, обединява файлове
Разширени функции PdfPig разкрива детайли за шрифтове, ограничаващи кутии и структура на документа, докато PDFsharp поддържа PDF/A стандарти, изображения и криптиране
Случаи на употреба PdfPig поддържа Извличане на данни, предварителна обработка за OCR, анализ на съдържание, докато PDFsharp поддържа Генериране на отчети, манипулация на PDF, попълване на формуляри

Заключение

PdfPig предлага безпрецедентен достъп до PDF съдържание за .NET разработчици. Идеален за:

Извличане на данни: Добиване на съдържание от отчети и документи
Анализ на документи: Разбиране на PDF структура и оформление
Достъпност: Конвертиране на PDF съдържание към други формати
Предварителна обработка: Подготовка на документи за OCR или машинно обучение

С фокуса си върху точно извличане на съдържание и ниска употреба на памет, PdfPig е изборът номер едно за PDF анализ в .NET.