PdfPig: Extracció Avançada de Text PDF per a .NET

Llegiu i analitzeu contingut PDF sense dependències - text, posicions, fonts i metadades

Què és PdfPig?

PdfPig és una llibreria de codi obert per a .NET especialitzada en extreure contingut de fitxers PDF sense dependències natives. A diferència dels generadors de PDF, PdfPig se centra en llegir documents existents per accedir a text, informació de fonts, dades de posició i estructura del document. És especialment útil per a mineria de dades, anàlisi de contingut i pipelines de processament de documents.

Avantatges clau de PdfPig:

  • Zero dependències: Implementació pura en C#
  • Accés de baix nivell: Posicionament precís de text i mètriques de fonts
  • Eficient en memòria: Gestiona documents grans amb mínim sobrecàrrega
  • Preparat per OCR: Extreu text amb caixes delimitadores per a anàlisi
  • Llicència MIT: Lliure per a ús comercial

Ideal per a anàlisi de documents, extracció de text i processament de contingut PDF.

GitHub

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Per què triar PdfPig?

  • Precisió: Gestiona correctament disposicions complexes de text en PDF
  • Rendiment: Mesurat com més ràpid que llibreries .NET similars
  • Transparència: Accés a estructures PDF crues quan es necessita
  • Desenvolupament actiu: Actualitzacions regulars des del 2018
  • Multiplataforma: Funciona en .NET Standard 2.0+

Instal·lació

PdfPig està disponible via NuGet per a una fàcil integració:

Consola de Package Manager


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Requisits del sistema: Runtime compatible amb .NET Standard 2.0

Exemples de Codi

Exemples pràctics de les capacitats de PdfPig:

Extracció amb PdfPig

Exemple 1: Extracció Bàsica de Text

Aquest exemple demostra com obrir un document PDF i extreure tot el contingut de text preservant l'ordre de lectura. PdfPig proporciona accés a cada lletra amb la seva posició exacta al document, permetent anàlisi de disposició avançada més enllà de la simple extracció de text.

La sortida inclou:

  • Contingut de text en brut en ordre de lectura
  • Números de pàgina per a cada segment de text
  • Informació bàsica de fonts

Exemple 2: Anàlisi Avançada de Posicions

PdfPig destaca en proporcionar dades de posició precises per a elements de text. Aquest exemple mostra com extreure paraules amb les seves caixes delimitadores, permetent tasques com detecció de taules, processament de formularis i anàlisi de regions de contingut.

Exemple 3: Extracció de Fonts i Metadades

Més enllà del contingut de text, PdfPig proporciona accés a metadades del document i informació detallada de fonts. Aquest exemple demostra com extreure propietats del document i analitzar l'ús de fonts al llarg del PDF.

Funcionalitats Avançades

PdfPig suporta anàlisi professional de PDFs:

  • Extracció d'imatges: Accés a imatges incrustades:

    Extracció d'Imatges

    
        using var document = PdfDocument.Open("fitxer.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Processar dades d'imatge
            }
        }
        
    
  • Navegació per marcadors: Accés a l'esquema del document:

    Marcadors

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Pàgina {bookmark.PageNumber}");
        }
        
    
  • PDFs xifrats: Gestiona fitxers protegits amb contrasenya:

    PDF Xifrat

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("xifrat.pdf", options);
        
    

PdfPig vs PdfSharp

Les 5 diferències clau entre PdfPig i PDFsharp:

  • Funció principal: PdfPig s'especialitza en llegir/extreure text, posicions i metadades. PDFsharp se centra en crear/editar documents PDF
  • Text vs Gràfics: PdfPig extreu text amb precisió de píxel (incloent coordenades). PDFsharp està optimitzat per dibuixar text/formes (informes, factures, formularis)
  • Accés al document: PdfPig analitza PDFs existents, mentre que PDFsharp pot modificar pàgines, afegir contingut, fusionar fitxers
  • Funcionalitats avançades: PdfPig revela detalls de fonts, caixes delimitadores i estructura del document, mentre que PDFsharp suporta estàndards PDF/A, imatges i xifratge
  • Casos d'ús: PdfPig és per a mineria de dades, preprocessat OCR, anàlisi de contingut, mentre que PDFsharp és per a generació d'informes, manipulació de PDF, ompliment de formularis

Conclusió

PdfPig ofereix un accés sense igual al contingut PDF per a desenvolupadors .NET. Ideal per a:

  • Extracció de dades: Mineria de contingut d'informes i documents
  • Anàlisi de documents: Entendre l'estructura i disposició de PDFs
  • Accessibilitat: Convertir contingut PDF a altres formats
  • Preprocessament: Preparar documents per a OCR o ML

Amb el seu enfocament en l'extracció precisa de contingut i baix ús de memòria, PdfPig és l'elecció ideal per a anàlisi de PDF en .NET.

Productes Similars

 Catalan