PdfPig : Extraction avancée de texte PDF pour .NET

Lire et analyser le contenu PDF sans dépendances - texte, positions, polices et métadonnées

Qu'est-ce que PdfPig ?

PdfPig est une bibliothèque .NET open source spécialisée dans l'extraction de contenu à partir de fichiers PDF sans dépendances natives. Contrairement aux générateurs de PDF, PdfPig se concentre sur la lecture de documents existants pour accéder au texte, aux informations de police, aux données de position et à la structure du document. C'est particulièrement utile pour l'exploration de données, l'analyse de contenu et les pipelines de traitement de documents.

Les principaux avantages de PdfPig :

Aucune dépendance : Implémentation pure en C#
Accès bas niveau : Positionnement précis du texte et métriques de police
Efficace en mémoire : Gère les documents volumineux avec un minimum de surcharge
Prêt pour OCR : Extrait le texte avec des boîtes englobantes pour analyse
Licence MIT : Gratuit pour usage commercial

Idéal pour l'analyse de documents, l'extraction de texte et le traitement de contenu PDF.

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Pourquoi choisir PdfPig ?

Précision : Gère correctement les mises en page de texte PDF complexes
Performance : Plus rapide que les bibliothèques .NET similaires en benchmark
Transparence : Accès aux structures PDF brutes si nécessaire
Développement actif : Mises à jour régulières depuis 2018
Multiplateforme : Fonctionne avec .NET Standard 2.0+

Installation

PdfPig est disponible via NuGet pour une intégration facile :

Console du Gestionnaire de packages


Install-Package PdfPig

CLI .NET


dotnet add package PdfPig

Configuration système requise : Runtime compatible .NET Standard 2.0

Exemples de code

Exemples pratiques des capacités de PdfPig :

Extraction PdfPig

Exemple 1 : Extraction de texte de base

Cet exemple montre comment ouvrir un document PDF et extraire tout le contenu textuel tout en préservant l'ordre de lecture. PdfPig donne accès à chaque lettre avec sa position exacte dans le document, permettant une analyse avancée de la mise en page au-delà de la simple extraction de texte.

La sortie inclut :

Contenu textuel brut dans l'ordre de lecture
Numéros de page pour chaque segment de texte
Informations de base sur la police

Exemple 2 : Analyse positionnelle avancée

PdfPig excelle en fournissant des données positionnelles précises pour les éléments de texte. Cet exemple montre comment extraire des mots avec leurs boîtes englobantes, permettant des tâches comme la détection de tableaux, le traitement de formulaires et l'analyse de zones de contenu.

Exemple 3 : Extraction de polices et métadonnées

Au-delà du contenu textuel, PdfPig donne accès aux métadonnées du document et à des informations détaillées sur les polices. Cet exemple montre comment extraire les propriétés du document et analyser l'utilisation des polices dans tout le PDF.

Fonctionnalités avancées

PdfPig prend en charge l'analyse PDF professionnelle :

Extraction d'images : Accès aux images intégrées :

Extraction d'images


    using var document = PdfDocument.Open("fichier.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Traiter les données d'image
        }
    }

Navigation par signets : Accès au plan du document :

Signets


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Page {bookmark.PageNumber}");
    }

PDFs chiffrés : Gestion des fichiers protégés par mot de passe :

PDF chiffré


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("chiffré.pdf", options);

PdfPig vs PdfSharp

Voici les 5 différences clés entre PdfPig et PDFsharp :

Fonction principale : PdfPig se spécialise dans la lecture/l'extraction de texte, positions et métadonnées. PDFsharp se concentre sur la création/l'édition de documents PDF
Texte vs graphiques : PdfPig extrait le texte avec une précision au pixel près (y compris les coordonnées). PDFsharp est optimisé pour dessiner du texte/formes (rapports, factures, formulaires)
Accès au document : PdfPig analyse les PDF existants tandis que PDFsharp peut modifier des pages, ajouter du contenu, fusionner des fichiers
Fonctionnalités avancées PdfPig révèle des détails sur les polices, boîtes englobantes et structure du document, tandis que PDFsharp prend en charge les standards PDF/A, images et chiffrement
Cas d'utilisation PdfPig sert à l'exploration de données, prétraitement OCR, analyse de contenu, tandis que PDFsharp sert à la génération de rapports, manipulation PDF, remplissage de formulaires

Conclusion

PdfPig offre un accès inégalé au contenu PDF pour les développeurs .NET. Idéal pour :

Extraction de données : Extraction de contenu à partir de rapports et documents
Analyse de documents : Compréhension de la structure et mise en page PDF
Accessibilité : Conversion de contenu PDF vers d'autres formats
Prétraitement : Préparation de documents pour OCR ou ML

Avec son focus sur l'extraction précise de contenu et sa faible utilisation mémoire, PdfPig est le choix privilégié pour l'analyse PDF en .NET.