PdfPig: Extração Avançada de Texto PDF para .NET
Leia e analise conteúdo PDF sem dependências - texto, posições, fontes e metadados
O que é PdfPig?
PdfPig é uma biblioteca .NET de código aberto focada na extração de conteúdo de arquivos PDF sem dependências nativas. Diferente de geradores PDF, o PdfPig é especializado em ler documentos existentes para acessar texto, informações de fontes, dados posicionais e estrutura do documento. É especialmente valioso para mineração de dados, análise de conteúdo e pipelines de processamento de documentos.
Vantagens principais do PdfPig:
- Zero dependências: Implementação pura em C#
- Acesso de baixo nível: Posicionamento preciso de texto e métricas de fontes
- Eficiente em memória: Lida com documentos grandes com overhead mínimo
- Pronto para OCR: Extrai texto com bounding boxes para análise
- Licença MIT: Gratuito para uso comercial
Ideal para análise de documentos, extração de texto e processamento de conteúdo PDF.
Por que escolher PdfPig?
- Precisão: Lida corretamente com layouts complexos de texto PDF
- Desempenho: Mais rápido que bibliotecas .NET similares
- Transparência: Acesso a estruturas PDF brutas quando necessário
- Desenvolvimento ativo: Atualizações regulares desde 2018
- Multiplataforma: Funciona em .NET Standard 2.0+
Instalação
PdfPig está disponível via NuGet para fácil integração:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Requisitos do sistema: Runtime compatível com .NET Standard 2.0
Exemplos de Código
Exemplos práticos das capacidades do PdfPig:
Exemplo 1: Extração Básica de Texto
Este exemplo demonstra como abrir um documento PDF e extrair todo o conteúdo textual preservando a ordem de leitura. PdfPig fornece acesso a cada letra com sua posição exata no documento.
Saída inclui:
- Conteúdo de texto bruto na ordem de leitura
- Números de página para cada segmento de texto
- Informações básicas de fontes
Exemplo 2: Análise Posicional Avançada
PdfPig excel em fornecer dados posicionais precisos para elementos de texto. Este exemplo mostra como extrair palavras com suas bounding boxes.
Exemplo 3: Extração de Fontes e Metadados
Além do conteúdo textual, PdfPig fornece acesso a metadados do documento e informações detalhadas sobre fontes.
Recursos Avançados
PdfPig suporta análise profissional de PDF:
- Extração de imagens: Acesse imagens incorporadas:
Extração de Imagens
using var document = PdfDocument.Open("arquivo.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Processar dados da imagem } }
- Navegação por bookmarks: Acesse o sumário do documento:
Bookmarks
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Página {bookmark.PageNumber}"); }
- PDFs criptografados: Lide com arquivos protegidos por senha:
PDF Criptografado
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("criptografado.pdf", options);
PdfPig vs PdfSharp
5 diferenças principais entre PdfPig e PDFsharp:
- Função principal: PdfPig especializa-se em leitura/extração de texto e metadados. PDFsharp foca em criar/editar documentos PDF
- Texto vs gráficos: PdfPig extrai texto com precisão pixel-perfect. PDFsharp é otimizado para desenhar texto/formas
- Acesso a documentos: PdfPig analisa PDFs existentes, PDFsharp pode modificar páginas
- Recursos avançados: PdfPig revela detalhes de fontes e estrutura do documento, PDFsharp suporta padrões PDF/A
- Casos de uso: PdfPig para mineração de dados, PDFsharp para geração de relatórios
Conclusão
PdfPig oferece acesso incomparável a conteúdo PDF para desenvolvedores .NET. Ideal para:
- Extração de dados: Mineração de conteúdo de relatórios
- Análise de documentos: Compreensão da estrutura PDF
- Acessibilidade: Conversão de conteúdo PDF para outros formatos
- Pré-processamento: Preparação de documentos para OCR ou ML
Com seu foco em extração precisa e baixo uso de memória, PdfPig é a escolha definitiva para análise PDF em .NET.
Produtos Similares
- API docTR - Reconhecimento Óptico de Caracteres (OCR) em Python
- API EasyOCR – Reconhecimento Ótico de Caracteres Abrangente em Python
- API spaCy – Processamento de Linguagem Natural Industrial
- Biblioteca Python pdfminer.six | Extrair texto de PDFs
- PaddleOCR API – Reconhecimento Ótico de Caracteres de Alto Desempenho