PdfPig: Extracción Avanzada de Texto PDF para .NET

Lee y analiza contenido PDF sin dependencias - texto, posiciones, fuentes y metadatos

¿Qué es PdfPig?

PdfPig es una biblioteca de código abierto para .NET especializada en extraer contenido de archivos PDF sin requerir dependencias nativas. A diferencia de los generadores de PDF, PdfPig se enfoca en leer documentos existentes para acceder a texto, información de fuentes, datos de posición y estructura del documento. Es especialmente valioso para minería de datos, análisis de contenido y flujos de procesamiento documental.

Principales ventajas de PdfPig:

Sin dependencias: Implementación pura en C#
Acceso de bajo nivel: Posicionamiento preciso de texto y métricas de fuentes
Eficiente en memoria: Maneja documentos grandes con mínima sobrecarga
Preparado para OCR: Extrae texto con cuadros delimitadores para análisis
Licencia MIT: Gratis para uso comercial

Ideal para análisis de documentos, extracción de texto y procesamiento de contenido PDF.

Estadísticas de GitHub

Nombre:
Idioma:
Estrellas:
Tenedores:
Licencia:
El repositorio se actualizó por última vez en

¿Por qué elegir PdfPig?

Precisión: Maneja correctamente diseños complejos de texto PDF
Rendimiento: Más rápido que bibliotecas similares en benchmarks
Transparencia: Acceso a estructuras PDF crudas cuando se necesita
Desarrollo activo: Actualizaciones regulares desde 2018
Multiplataforma: Funciona con .NET Standard 2.0+

Instalación

PdfPig está disponible a través de NuGet para fácil integración:

Consola del Administrador de Paquetes


Install-Package PdfPig

CLI de .NET


dotnet add package PdfPig

Requisitos del sistema: Entorno de ejecución compatible con .NET Standard 2.0

Ejemplos de Código

Ejemplos prácticos de las capacidades de PdfPig:

Extracción con PdfPig

Ejemplo 1: Extracción básica de texto

Este ejemplo muestra cómo abrir un documento PDF y extraer todo el contenido de texto manteniendo el orden de lectura. PdfPig proporciona acceso a cada letra con su posición exacta en el documento, permitiendo análisis avanzados de diseño más allá de la simple extracción de texto.

La salida incluye:

Contenido de texto crudo en orden de lectura
Números de página para cada segmento de texto
Información básica de fuentes

Ejemplo 2: Análisis posicional avanzado

PdfPig destaca por proporcionar datos posicionales precisos para elementos de texto. Este ejemplo muestra cómo extraer palabras con sus cuadros delimitadores, permitiendo tareas como detección de tablas, procesamiento de formularios y análisis de regiones de contenido.

Ejemplo 3: Extracción de fuentes y metadatos

Más allá del contenido de texto, PdfPig proporciona acceso a metadatos del documento e información detallada de fuentes. Este ejemplo demuestra cómo extraer propiedades del documento y analizar el uso de fuentes en todo el PDF.

Funciones Avanzadas

PdfPig soporta análisis profesional de PDF:

Extracción de imágenes: Acceso a imágenes incrustadas:

Extracción de Imágenes


    using var document = PdfDocument.Open("archivo.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Procesar datos de imagen
        }
    }

Navegación por marcadores: Acceso al esquema del documento:

Marcadores


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Página {bookmark.PageNumber}");
    }

PDFs encriptados: Manejo de archivos protegidos con contraseña:

PDF Encriptado


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("encriptado.pdf", options);

PdfPig vs PdfSharp

Estas son las 5 diferencias clave entre PdfPig y PDFsharp:

Función principal: PdfPig se especializa en leer/extraer texto, posiciones y metadatos. PDFsharp se enfoca en crear/editar documentos PDF
Texto vs gráficos: PdfPig extrae texto con precisión de píxel (incluyendo coordenadas). PDFsharp está optimizado para dibujar texto/formas (reportes, facturas, formularios)
Acceso a documentos: PdfPig analiza PDFs existentes, mientras PDFsharp puede modificar páginas, añadir contenido, fusionar archivos
Funciones avanzadas PdfPig revela detalles de fuentes, cuadros delimitadores y estructura del documento, mientras PDFsharp soporta estándares PDF/A, imágenes y encriptación
Casos de uso PdfPig es para minería de datos, preprocesamiento OCR, análisis de contenido, mientras PDFsharp sirve para generación de reportes, manipulación PDF, llenado de formularios

Conclusión

PdfPig ofrece acceso sin igual al contenido PDF para desarrolladores .NET. Ideal para:

Extracción de datos: Minería de contenido en reportes y documentos
Análisis documental: Comprensión de estructura y diseño PDF
Accesibilidad: Conversión de contenido PDF a otros formatos
Preprocesamiento: Preparación de documentos para OCR o ML

Con su enfoque en extracción precisa de contenido y bajo uso de memoria, PdfPig es la opción preferida para análisis PDF en .NET.