PdfPig: Estrazione avanzata di testo da PDF per .NET

Leggi e analizza contenuti PDF senza dipendenze - testo, posizioni, font e metadati

Cos'è PdfPig?

PdfPig è una libreria .NET open source specializzata nell'estrazione di contenuti da file PDF senza dipendenze native. A differenza dei generatori di PDF, PdfPig è ottimizzato per la lettura di documenti esistenti per accedere a testo, informazioni sui font, dati di posizione e struttura del documento. Particolarmente utile per data mining, analisi dei contenuti e pipeline di elaborazione documenti.

Vantaggi principali di PdfPig:

  • Nessuna dipendenza: Implementazione pura in C#
  • Accesso a basso livello: Posizionamento preciso del testo e metriche dei font
  • Efficiente con la memoria: Gestisce documenti grandi con overhead minimo
  • Pronto per OCR: Estrae testo con bounding box per l'analisi
  • Licenza MIT: Gratis per uso commerciale

Ideale per l'analisi documentale, l'estrazione del testo e l'elaborazione di contenuti PDF.

GitHub

Statistiche GitHub

Nome:
Lingua:
Stelle:
Forchette:
Licenza:
L'ultimo aggiornamento del repository è avvenuto il

Perché scegliere PdfPig?

  • Precisione: Gestisce correttamente layout di testo PDF complessi
  • Prestazioni: Più veloce di librerie .NET simili nei benchmark
  • Trasparenza: Accesso alle strutture PDF grezze quando necessario
  • Sviluppo attivo: Aggiornamenti regolari dal 2018
  • Cross-platform: Funziona con .NET Standard 2.0+

Installazione

PdfPig è disponibile via NuGet per una facile integrazione:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Requisiti di sistema: Runtime compatibile con .NET Standard 2.0

Esempi di codice

Esempi pratici delle capacità di PdfPig:

Estrazione con PdfPig

Esempio 1: Estrazione di base del testo

Questo esempio mostra come aprire un documento PDF ed estrarre tutto il contenuto testuale mantenendo l'ordine di lettura. PdfPig fornisce accesso a ogni lettera con la sua posizione esatta nel documento, permettendo analisi avanzate del layout oltre la semplice estrazione del testo.

L'output include:

  • Contenuto testuale grezzo nell'ordine di lettura
  • Numeri di pagina per ogni segmento di testo
  • Informazioni di base sui font

Esempio 2: Analisi posizionale avanzata

PdfPig eccelle nel fornire dati posizionali precisi per gli elementi di testo. Questo esempio mostra come estrarre parole con i loro bounding box, abilitando attività come rilevamento di tabelle, elaborazione di moduli e analisi di aree di contenuto.

Esempio 3: Estrazione di font e metadati

Oltre al contenuto testuale, PdfPig fornisce accesso ai metadati del documento e informazioni dettagliate sui font. Questo esempio dimostra l'estrazione delle proprietà del documento e l'analisi dell'uso dei font nell'intero PDF.

Funzionalità avanzate

PdfPig supporta l'analisi PDF professionale:

  • Estrazione immagini: Accesso a immagini incorporate:

    Estrazione immagini

    
        using var document = PdfDocument.Open("file.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Elabora i dati dell'immagine
            }
        }
        
    
  • Navigazione segnalibri: Accesso alla struttura del documento:

    Segnalibri

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}");
        }
        
    
  • PDF crittografati: Gestione di file protetti da password:

    PDF crittografato

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("crittografato.pdf", options);
        
    

PdfPig vs PdfSharp

Ecco le 5 differenze principali tra PdfPig e PDFsharp:

  • Funzione primaria: PdfPig è specializzato nella lettura/estrazione di testo, posizioni e metadati. PDFsharp è focalizzato sulla creazione/modifica di documenti PDF
  • Testo vs grafica: PdfPig estrae testo con precisione al pixel (incluso coordinate). PDFsharp è ottimizzato per disegnare testo/forme (report, fatture, moduli)
  • Accesso al documento: PdfPig analizza PDF esistenti, mentre PDFsharp può modificare pagine, aggiungere contenuti, unire file
  • Funzionalità avanzate PdfPig rivela dettagli sui font, bounding box e struttura del documento, mentre PDFsharp supporta standard PDF/A, immagini e crittografia
  • Casi d'uso PdfPig per data mining, pre-elaborazione OCR, analisi contenuti, mentre PDFsharp per generazione report, manipolazione PDF, compilazione moduli

Conclusione

PdfPig offre un accesso senza pari ai contenuti PDF per sviluppatori .NET. Ideale per:

  • Estrazione dati: Mining di contenuti da report e documenti
  • Analisi documentale: Comprensione della struttura e layout PDF
  • Accessibilità: Conversione di contenuti PDF in altri formati
  • Pre-elaborazione: Preparazione documenti per OCR o ML

Con il suo focus sull'estrazione precisa dei contenuti e sul basso uso di memoria, PdfPig è la scelta principale per l'analisi PDF in .NET.

Prodotti Simili

 Italiano