1. 产品
  2.   解析器
  3.   .NET
  4.   PdfPig
 
  

PdfPig:面向.NET的高级PDF文本提取方案

无需依赖项即可读取和分析PDF内容 - 文本、坐标位置、字体与元数据

PdfPig是什么?

PdfPig是一款开源的.NET库,专注于无需原生依赖即可从PDF文件提取内容。与PDF生成器不同,PdfPig专为读取现有文档设计,可获取文本、字体信息、定位数据和文档结构。特别适用于数据挖掘、内容分析和文档处理流水线。

核心优势:

  • 零依赖:纯C#实现
  • 底层访问:精确的文本定位和字体度量
  • 内存高效:以最小开销处理大型文档
  • OCR就绪:提取带边界框的文本用于分析
  • MIT许可:可免费商用

理想应用于文档分析、文本提取和PDF内容处理场景。

GitHub

GitHub 统计

姓名:
语言:
星星:
叉子:
执照:
存储库上次更新于

为什么选择PdfPig?

  • 精准性:正确处理复杂PDF文本布局
  • 高性能:比同类.NET库更快
  • 透明化:按需访问原始PDF结构
  • 持续维护:自2018年起定期更新
  • 跨平台:支持.NET Standard 2.0+

安装指南

通过NuGet快速集成:

Package Manager控制台


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

系统要求:.NET Standard 2.0兼容运行时

代码示例

功能演示:

PdfPig提取效果

示例1:基础文本提取

演示如何打开PDF文档并保持阅读顺序提取全部文本内容。PdfPig可获取每个字符在文档中的精确坐标。

输出包含:

  • 按阅读顺序排列的原始文本
  • 各文本段的页码
  • 基础字体信息

示例2:高级定位分析

PdfPig擅长提供文本元素的精确坐标数据。本示例展示如何提取带边界框的单词。

示例3:字体与元数据提取

除文本内容外,PdfPig还提供文档元数据和详细字体信息。

高级功能

支持专业级PDF分析:

  • 图像提取:获取嵌入图像:

    图像提取

    
        using var document = PdfDocument.Open("文件.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // 处理图像数据
            }
        }
        
    
  • 书签导航:访问文档大纲:

    书签

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - 第{bookmark.PageNumber}页");
        }
        
    
  • 加密PDF:处理密码保护文件:

    加密PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("加密文件.pdf", options);
        
    

PdfPig与PdfSharp对比

5个核心差异:

  • 主要功能:PdfPig专注文本/元数据提取,PdfSharp侧重PDF创建/编辑
  • 文本vs图形:PdfPig实现像素级文本提取,PdfSharp优化文本/图形绘制
  • 文档访问:PdfPig解析现有PDF,PdfSharp可修改页面
  • 高级特性:PdfPig揭示字体细节,PdfSharp支持PDF/A标准
  • 应用场景:PdfPig用于数据分析,PdfSharp用于报告生成

总结

PdfPig为.NET开发者提供无与伦比的PDF内容访问能力,适用于:

  • 数据提取:从报表挖掘内容
  • 文档分析:理解PDF结构
  • 可访问性:转换PDF内容为其他格式
  • 预处理:为OCR/ML准备文档

凭借精准的提取能力和低内存占用,PdfPig是.NET生态中PDF分析的最佳选择。

类似产品

 中国人