PdfPig: Extração Avançada de Texto PDF para .NET

Leia e analise conteúdo PDF sem dependências - texto, posições, fontes e metadados

O que é PdfPig?

PdfPig é uma biblioteca .NET de código aberto focada na extração de conteúdo de arquivos PDF sem dependências nativas. Diferente de geradores PDF, o PdfPig é especializado em ler documentos existentes para acessar texto, informações de fontes, dados posicionais e estrutura do documento. É especialmente valioso para mineração de dados, análise de conteúdo e pipelines de processamento de documentos.

Vantagens principais do PdfPig:

Zero dependências: Implementação pura em C#
Acesso de baixo nível: Posicionamento preciso de texto e métricas de fontes
Eficiente em memória: Lida com documentos grandes com overhead mínimo
Pronto para OCR: Extrai texto com bounding boxes para análise
Licença MIT: Gratuito para uso comercial

Ideal para análise de documentos, extração de texto e processamento de conteúdo PDF.

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Por que escolher PdfPig?

Precisão: Lida corretamente com layouts complexos de texto PDF
Desempenho: Mais rápido que bibliotecas .NET similares
Transparência: Acesso a estruturas PDF brutas quando necessário
Desenvolvimento ativo: Atualizações regulares desde 2018
Multiplataforma: Funciona em .NET Standard 2.0+

Instalação

PdfPig está disponível via NuGet para fácil integração:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Requisitos do sistema: Runtime compatível com .NET Standard 2.0

Exemplos de Código

Exemplos práticos das capacidades do PdfPig:

Extração PdfPig

Exemplo 1: Extração Básica de Texto

Este exemplo demonstra como abrir um documento PDF e extrair todo o conteúdo textual preservando a ordem de leitura. PdfPig fornece acesso a cada letra com sua posição exata no documento.

Saída inclui:

Conteúdo de texto bruto na ordem de leitura
Números de página para cada segmento de texto
Informações básicas de fontes

Exemplo 2: Análise Posicional Avançada

PdfPig excel em fornecer dados posicionais precisos para elementos de texto. Este exemplo mostra como extrair palavras com suas bounding boxes.

Exemplo 3: Extração de Fontes e Metadados

Além do conteúdo textual, PdfPig fornece acesso a metadados do documento e informações detalhadas sobre fontes.

Recursos Avançados

PdfPig suporta análise profissional de PDF:

Extração de imagens: Acesse imagens incorporadas:

Extração de Imagens


    using var document = PdfDocument.Open("arquivo.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Processar dados da imagem
        }
    }

Navegação por bookmarks: Acesse o sumário do documento:

Bookmarks


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Página {bookmark.PageNumber}");
    }

PDFs criptografados: Lide com arquivos protegidos por senha:

PDF Criptografado


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("criptografado.pdf", options);

PdfPig vs PdfSharp

5 diferenças principais entre PdfPig e PDFsharp:

Função principal: PdfPig especializa-se em leitura/extração de texto e metadados. PDFsharp foca em criar/editar documentos PDF
Texto vs gráficos: PdfPig extrai texto com precisão pixel-perfect. PDFsharp é otimizado para desenhar texto/formas
Acesso a documentos: PdfPig analisa PDFs existentes, PDFsharp pode modificar páginas
Recursos avançados: PdfPig revela detalhes de fontes e estrutura do documento, PDFsharp suporta padrões PDF/A
Casos de uso: PdfPig para mineração de dados, PDFsharp para geração de relatórios

Conclusão

PdfPig oferece acesso incomparável a conteúdo PDF para desenvolvedores .NET. Ideal para:

Extração de dados: Mineração de conteúdo de relatórios
Análise de documentos: Compreensão da estrutura PDF
Acessibilidade: Conversão de conteúdo PDF para outros formatos
Pré-processamento: Preparação de documentos para OCR ou ML

Com seu foco em extração precisa e baixo uso de memória, PdfPig é a escolha definitiva para análise PDF em .NET.