PdfPig: Extracció Avançada de Text PDF per a .NET

Llegiu i analitzeu contingut PDF sense dependències - text, posicions, fonts i metadades

Què és PdfPig?

PdfPig és una llibreria de codi obert per a .NET especialitzada en extreure contingut de fitxers PDF sense dependències natives. A diferència dels generadors de PDF, PdfPig se centra en llegir documents existents per accedir a text, informació de fonts, dades de posició i estructura del document. És especialment útil per a mineria de dades, anàlisi de contingut i pipelines de processament de documents.

Avantatges clau de PdfPig:

Zero dependències: Implementació pura en C#
Accés de baix nivell: Posicionament precís de text i mètriques de fonts
Eficient en memòria: Gestiona documents grans amb mínim sobrecàrrega
Preparat per OCR: Extreu text amb caixes delimitadores per a anàlisi
Llicència MIT: Lliure per a ús comercial

Ideal per a anàlisi de documents, extracció de text i processament de contingut PDF.

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Per què triar PdfPig?

Precisió: Gestiona correctament disposicions complexes de text en PDF
Rendiment: Mesurat com més ràpid que llibreries .NET similars
Transparència: Accés a estructures PDF crues quan es necessita
Desenvolupament actiu: Actualitzacions regulars des del 2018
Multiplataforma: Funciona en .NET Standard 2.0+

Instal·lació

PdfPig està disponible via NuGet per a una fàcil integració:

Consola de Package Manager


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Requisits del sistema: Runtime compatible amb .NET Standard 2.0

Exemples de Codi

Exemples pràctics de les capacitats de PdfPig:

Extracció amb PdfPig

Exemple 1: Extracció Bàsica de Text

Aquest exemple demostra com obrir un document PDF i extreure tot el contingut de text preservant l'ordre de lectura. PdfPig proporciona accés a cada lletra amb la seva posició exacta al document, permetent anàlisi de disposició avançada més enllà de la simple extracció de text.

La sortida inclou:

Contingut de text en brut en ordre de lectura
Números de pàgina per a cada segment de text
Informació bàsica de fonts

Exemple 2: Anàlisi Avançada de Posicions

PdfPig destaca en proporcionar dades de posició precises per a elements de text. Aquest exemple mostra com extreure paraules amb les seves caixes delimitadores, permetent tasques com detecció de taules, processament de formularis i anàlisi de regions de contingut.

Exemple 3: Extracció de Fonts i Metadades

Més enllà del contingut de text, PdfPig proporciona accés a metadades del document i informació detallada de fonts. Aquest exemple demostra com extreure propietats del document i analitzar l'ús de fonts al llarg del PDF.

Funcionalitats Avançades

PdfPig suporta anàlisi professional de PDFs:

Extracció d'imatges: Accés a imatges incrustades:

Extracció d'Imatges


    using var document = PdfDocument.Open("fitxer.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Processar dades d'imatge
        }
    }

Navegació per marcadors: Accés a l'esquema del document:

Marcadors


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Pàgina {bookmark.PageNumber}");
    }

PDFs xifrats: Gestiona fitxers protegits amb contrasenya:

PDF Xifrat


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("xifrat.pdf", options);

PdfPig vs PdfSharp

Les 5 diferències clau entre PdfPig i PDFsharp:

Funció principal: PdfPig s'especialitza en llegir/extreure text, posicions i metadades. PDFsharp se centra en crear/editar documents PDF
Text vs Gràfics: PdfPig extreu text amb precisió de píxel (incloent coordenades). PDFsharp està optimitzat per dibuixar text/formes (informes, factures, formularis)
Accés al document: PdfPig analitza PDFs existents, mentre que PDFsharp pot modificar pàgines, afegir contingut, fusionar fitxers
Funcionalitats avançades: PdfPig revela detalls de fonts, caixes delimitadores i estructura del document, mentre que PDFsharp suporta estàndards PDF/A, imatges i xifratge
Casos d'ús: PdfPig és per a mineria de dades, preprocessat OCR, anàlisi de contingut, mentre que PDFsharp és per a generació d'informes, manipulació de PDF, ompliment de formularis

Conclusió

PdfPig ofereix un accés sense igual al contingut PDF per a desenvolupadors .NET. Ideal per a:

Extracció de dades: Mineria de contingut d'informes i documents
Anàlisi de documents: Entendre l'estructura i disposició de PDFs
Accessibilitat: Convertir contingut PDF a altres formats
Preprocessament: Preparar documents per a OCR o ML

Amb el seu enfocament en l'extracció precisa de contingut i baix ús de memòria, PdfPig és l'elecció ideal per a anàlisi de PDF en .NET.