PdfPig：面向.NET的高级PDF文本提取方案

无需依赖项即可读取和分析PDF内容 - 文本、坐标位置、字体与元数据

PdfPig是什么？

PdfPig是一款开源的.NET库，专注于无需原生依赖即可从PDF文件提取内容。与PDF生成器不同，PdfPig专为读取现有文档设计，可获取文本、字体信息、定位数据和文档结构。特别适用于数据挖掘、内容分析和文档处理流水线。

核心优势：

零依赖：纯C#实现
底层访问：精确的文本定位和字体度量
内存高效：以最小开销处理大型文档
OCR就绪：提取带边界框的文本用于分析
MIT许可：可免费商用

理想应用于文档分析、文本提取和PDF内容处理场景。

GitHub 统计

姓名：
语言：
星星：
叉子：
执照：
存储库上次更新于

为什么选择PdfPig？

精准性：正确处理复杂PDF文本布局
高性能：比同类.NET库更快
透明化：按需访问原始PDF结构
持续维护：自2018年起定期更新
跨平台：支持.NET Standard 2.0+

安装指南

通过NuGet快速集成：

Package Manager控制台


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

系统要求：.NET Standard 2.0兼容运行时

代码示例

功能演示：

PdfPig提取效果

示例1：基础文本提取

演示如何打开PDF文档并保持阅读顺序提取全部文本内容。PdfPig可获取每个字符在文档中的精确坐标。

输出包含：

按阅读顺序排列的原始文本
各文本段的页码
基础字体信息

示例2：高级定位分析

PdfPig擅长提供文本元素的精确坐标数据。本示例展示如何提取带边界框的单词。

示例3：字体与元数据提取

除文本内容外，PdfPig还提供文档元数据和详细字体信息。

高级功能

支持专业级PDF分析：

图像提取：获取嵌入图像：

图像提取


    using var document = PdfDocument.Open("文件.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // 处理图像数据
        }
    }

书签导航：访问文档大纲：

书签


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - 第{bookmark.PageNumber}页");
    }

加密PDF：处理密码保护文件：

加密PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("加密文件.pdf", options);

PdfPig与PdfSharp对比

5个核心差异：

主要功能：PdfPig专注文本/元数据提取，PdfSharp侧重PDF创建/编辑
文本vs图形：PdfPig实现像素级文本提取，PdfSharp优化文本/图形绘制
文档访问：PdfPig解析现有PDF，PdfSharp可修改页面
高级特性：PdfPig揭示字体细节，PdfSharp支持PDF/A标准
应用场景：PdfPig用于数据分析，PdfSharp用于报告生成

总结

PdfPig为.NET开发者提供无与伦比的PDF内容访问能力，适用于：

数据提取：从报表挖掘内容
文档分析：理解PDF结构
可访问性：转换PDF内容为其他格式
预处理：为OCR/ML准备文档

凭借精准的提取能力和低内存占用，PdfPig是.NET生态中PDF分析的最佳选择。