PdfPig: Разширено извличане на текст от PDF за .NET
Четене и анализ на PDF съдържание без зависимости - текст, позиции, шрифтове и метаданни
Какво е PdfPig?
PdfPig е библиотека с отворен код за .NET, фокусирана върху извличането на съдържание от PDF файлове без нуждата от външни зависимости. За разлика от генераторите на PDF, PdfPig е специализиран в четенето на съществуващи документи за достъп до текст, информация за шрифтове, позиционни данни и структура на документа. Особено полезен за извличане на данни, анализ на съдържание и обработка на документи.
Основни предимства на PdfPig:
- Нулеви зависимости: Чиста реализация на C#
- Достъп на ниско ниво: Точно позициониране на текст и метрики на шрифтове
- Ефективна памет: Обработва големи документи с минимални изисквания
- Готов за OCR: Извлича текст с ограничаващи кутии за анализ
- MIT лиценз: Безплатен за комерсиална употреба
Идеален за анализ на документи, извличане на текст и обработка на PDF съдържание.
Защо да изберете PdfPig?
- Точност: Коректна обработка на сложни PDF оформления
- Производителност: По-бърз от подобни .NET библиотеки в тестове
- Прозрачност: Достъп до сурови PDF структури при нужда
- Активен разработка: Редовни актуализации от 2018 г.
- Кръстосана платформа: Работи на .NET Standard 2.0+
Инсталация
PdfPig е достъпен чрез NuGet за лесно интегриране:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Системни изисквания: Съвместима с .NET Standard 2.0
Кодови примери
Практически примери за възможностите на PdfPig:
Пример 1: Основно извличане на текст
Този пример демонстрира как да отворите PDF документ и извлечете целия текстово съдържание, запазвайки реда на четене. PdfPig предоставя достъп до всяка буква с точната й позиция в документа, позволявайки напреднал анализ на оформлението.
Резултатът включва:
- Суров текстово съдържание в ред на четене
- Номера на страници за всеки текстов сегмент
- Основна информация за шрифта
Пример 2: Напреднал позиционен анализ
PdfPig отлично се справя с предоставянето на точни позиционни данни за текстови елементи. Този пример показва как да извлечете думи с техните ограничаващи кутии, позволявайки задачи като откриване на таблици, обработка на форми и анализ на съдържателни региони.
Пример 3: Извличане на шрифтове и метаданни
Освен текстово съдържание, PdfPig предоставя достъп до метаданни на документа и подробна информация за шрифтовете. Този пример демонстрира извличане на свойства на документа и анализ на използваните шрифтове в PDF файла.
Разширени функции
PdfPig поддържа професионален PDF анализ:
- Извличане на изображения: Достъп до вградени изображения:
Извличане на изображения
using var document = PdfDocument.Open("file.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Обработка на изображението } }
- Навигация по отметки: Достъп до структурата на документа:
Отметки
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Страница {bookmark.PageNumber}"); }
- Криптирани PDF: Работа с файлове, защитени с парола:
Криптиран PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("encrypted.pdf", options);
PdfPig срещу PdfSharp
Основни разлики между PdfPig и PDFsharp:
- Основна функция: PdfPig е специализиран в четене/извличане на текст, позиции и метаданни. PDFsharp се фокусира върху създаване/редактиране на PDF документи
- Текст срещу графика: PdfPig извлича текст с пикселенa точност (включително координати). PDFsharp е оптимизиран за рисуване на текст/форми (отчети, фактури, формуляри)
- Достъп до документ: PdfPig анализира съществуващи PDF-и, докато PDFsharp може да променя страници, добавя съдържание, обединява файлове
- Разширени функции PdfPig разкрива детайли за шрифтове, ограничаващи кутии и структура на документа, докато PDFsharp поддържа PDF/A стандарти, изображения и криптиране
- Случаи на употреба PdfPig поддържа Извличане на данни, предварителна обработка за OCR, анализ на съдържание, докато PDFsharp поддържа Генериране на отчети, манипулация на PDF, попълване на формуляри
Заключение
PdfPig предлага безпрецедентен достъп до PDF съдържание за .NET разработчици. Идеален за:
- Извличане на данни: Добиване на съдържание от отчети и документи
- Анализ на документи: Разбиране на PDF структура и оформление
- Достъпност: Конвертиране на PDF съдържание към други формати
- Предварителна обработка: Подготовка на документи за OCR или машинно обучение
С фокуса си върху точно извличане на съдържание и ниска употреба на памет, PdfPig е изборът номер едно за PDF анализ в .NET.
Подобни Продукти
- docTR API – Оптично разпознаване на символи в Python
- EasyOCR API – Изчерпателно оптично разпознаване на знаци (OCR) на Python
- PaddleOCR API – Високопроизводително оптично разпознаване на символи
- pdfminer.six Python библиотека | Извличане на текст от PDF файлове
- PyMuPDF Python API | Разширено анализиране и извличане на PDF