PdfPig: Extração Avançada de Texto PDF para .NET

Leia e analise conteúdo PDF sem dependências - texto, posições, fontes e metadados

O que é PdfPig?

PdfPig é uma biblioteca .NET de código aberto focada na extração de conteúdo de arquivos PDF sem dependências nativas. Diferente de geradores PDF, o PdfPig é especializado em ler documentos existentes para acessar texto, informações de fontes, dados posicionais e estrutura do documento. É especialmente valioso para mineração de dados, análise de conteúdo e pipelines de processamento de documentos.

Vantagens principais do PdfPig:

  • Zero dependências: Implementação pura em C#
  • Acesso de baixo nível: Posicionamento preciso de texto e métricas de fontes
  • Eficiente em memória: Lida com documentos grandes com overhead mínimo
  • Pronto para OCR: Extrai texto com bounding boxes para análise
  • Licença MIT: Gratuito para uso comercial

Ideal para análise de documentos, extração de texto e processamento de conteúdo PDF.

GitHub

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Por que escolher PdfPig?

  • Precisão: Lida corretamente com layouts complexos de texto PDF
  • Desempenho: Mais rápido que bibliotecas .NET similares
  • Transparência: Acesso a estruturas PDF brutas quando necessário
  • Desenvolvimento ativo: Atualizações regulares desde 2018
  • Multiplataforma: Funciona em .NET Standard 2.0+

Instalação

PdfPig está disponível via NuGet para fácil integração:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Requisitos do sistema: Runtime compatível com .NET Standard 2.0

Exemplos de Código

Exemplos práticos das capacidades do PdfPig:

Extração PdfPig

Exemplo 1: Extração Básica de Texto

Este exemplo demonstra como abrir um documento PDF e extrair todo o conteúdo textual preservando a ordem de leitura. PdfPig fornece acesso a cada letra com sua posição exata no documento.

Saída inclui:

  • Conteúdo de texto bruto na ordem de leitura
  • Números de página para cada segmento de texto
  • Informações básicas de fontes

Exemplo 2: Análise Posicional Avançada

PdfPig excel em fornecer dados posicionais precisos para elementos de texto. Este exemplo mostra como extrair palavras com suas bounding boxes.

Exemplo 3: Extração de Fontes e Metadados

Além do conteúdo textual, PdfPig fornece acesso a metadados do documento e informações detalhadas sobre fontes.

Recursos Avançados

PdfPig suporta análise profissional de PDF:

  • Extração de imagens: Acesse imagens incorporadas:

    Extração de Imagens

    
        using var document = PdfDocument.Open("arquivo.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Processar dados da imagem
            }
        }
        
    
  • Navegação por bookmarks: Acesse o sumário do documento:

    Bookmarks

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Página {bookmark.PageNumber}");
        }
        
    
  • PDFs criptografados: Lide com arquivos protegidos por senha:

    PDF Criptografado

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("criptografado.pdf", options);
        
    

PdfPig vs PdfSharp

5 diferenças principais entre PdfPig e PDFsharp:

  • Função principal: PdfPig especializa-se em leitura/extração de texto e metadados. PDFsharp foca em criar/editar documentos PDF
  • Texto vs gráficos: PdfPig extrai texto com precisão pixel-perfect. PDFsharp é otimizado para desenhar texto/formas
  • Acesso a documentos: PdfPig analisa PDFs existentes, PDFsharp pode modificar páginas
  • Recursos avançados: PdfPig revela detalhes de fontes e estrutura do documento, PDFsharp suporta padrões PDF/A
  • Casos de uso: PdfPig para mineração de dados, PDFsharp para geração de relatórios

Conclusão

PdfPig oferece acesso incomparável a conteúdo PDF para desenvolvedores .NET. Ideal para:

  • Extração de dados: Mineração de conteúdo de relatórios
  • Análise de documentos: Compreensão da estrutura PDF
  • Acessibilidade: Conversão de conteúdo PDF para outros formatos
  • Pré-processamento: Preparação de documentos para OCR ou ML

Com seu foco em extração precisa e baixo uso de memória, PdfPig é a escolha definitiva para análise PDF em .NET.

Produtos Similares

 Portugese