PdfPig : Extraction avancée de texte PDF pour .NET
Lire et analyser le contenu PDF sans dépendances - texte, positions, polices et métadonnées
Qu'est-ce que PdfPig ?
PdfPig est une bibliothèque .NET open source spécialisée dans l'extraction de contenu à partir de fichiers PDF sans dépendances natives. Contrairement aux générateurs de PDF, PdfPig se concentre sur la lecture de documents existants pour accéder au texte, aux informations de police, aux données de position et à la structure du document. C'est particulièrement utile pour l'exploration de données, l'analyse de contenu et les pipelines de traitement de documents.
Les principaux avantages de PdfPig :
- Aucune dépendance : Implémentation pure en C#
- Accès bas niveau : Positionnement précis du texte et métriques de police
- Efficace en mémoire : Gère les documents volumineux avec un minimum de surcharge
- Prêt pour OCR : Extrait le texte avec des boîtes englobantes pour analyse
- Licence MIT : Gratuit pour usage commercial
Idéal pour l'analyse de documents, l'extraction de texte et le traitement de contenu PDF.
Pourquoi choisir PdfPig ?
- Précision : Gère correctement les mises en page de texte PDF complexes
- Performance : Plus rapide que les bibliothèques .NET similaires en benchmark
- Transparence : Accès aux structures PDF brutes si nécessaire
- Développement actif : Mises à jour régulières depuis 2018
- Multiplateforme : Fonctionne avec .NET Standard 2.0+
Installation
PdfPig est disponible via NuGet pour une intégration facile :
Console du Gestionnaire de packages
Install-Package PdfPig
CLI .NET
dotnet add package PdfPig
Configuration système requise : Runtime compatible .NET Standard 2.0
Exemples de code
Exemples pratiques des capacités de PdfPig :
Exemple 1 : Extraction de texte de base
Cet exemple montre comment ouvrir un document PDF et extraire tout le contenu textuel tout en préservant l'ordre de lecture. PdfPig donne accès à chaque lettre avec sa position exacte dans le document, permettant une analyse avancée de la mise en page au-delà de la simple extraction de texte.
La sortie inclut :
- Contenu textuel brut dans l'ordre de lecture
- Numéros de page pour chaque segment de texte
- Informations de base sur la police
Exemple 2 : Analyse positionnelle avancée
PdfPig excelle en fournissant des données positionnelles précises pour les éléments de texte. Cet exemple montre comment extraire des mots avec leurs boîtes englobantes, permettant des tâches comme la détection de tableaux, le traitement de formulaires et l'analyse de zones de contenu.
Exemple 3 : Extraction de polices et métadonnées
Au-delà du contenu textuel, PdfPig donne accès aux métadonnées du document et à des informations détaillées sur les polices. Cet exemple montre comment extraire les propriétés du document et analyser l'utilisation des polices dans tout le PDF.
Fonctionnalités avancées
PdfPig prend en charge l'analyse PDF professionnelle :
- Extraction d'images : Accès aux images intégrées :
Extraction d'images
using var document = PdfDocument.Open("fichier.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Traiter les données d'image } }
- Navigation par signets : Accès au plan du document :
Signets
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Page {bookmark.PageNumber}"); }
- PDFs chiffrés : Gestion des fichiers protégés par mot de passe :
PDF chiffré
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("chiffré.pdf", options);
PdfPig vs PdfSharp
Voici les 5 différences clés entre PdfPig et PDFsharp :
- Fonction principale : PdfPig se spécialise dans la lecture/l'extraction de texte, positions et métadonnées. PDFsharp se concentre sur la création/l'édition de documents PDF
- Texte vs graphiques : PdfPig extrait le texte avec une précision au pixel près (y compris les coordonnées). PDFsharp est optimisé pour dessiner du texte/formes (rapports, factures, formulaires)
- Accès au document : PdfPig analyse les PDF existants tandis que PDFsharp peut modifier des pages, ajouter du contenu, fusionner des fichiers
- Fonctionnalités avancées PdfPig révèle des détails sur les polices, boîtes englobantes et structure du document, tandis que PDFsharp prend en charge les standards PDF/A, images et chiffrement
- Cas d'utilisation PdfPig sert à l'exploration de données, prétraitement OCR, analyse de contenu, tandis que PDFsharp sert à la génération de rapports, manipulation PDF, remplissage de formulaires
Conclusion
PdfPig offre un accès inégalé au contenu PDF pour les développeurs .NET. Idéal pour :
- Extraction de données : Extraction de contenu à partir de rapports et documents
- Analyse de documents : Compréhension de la structure et mise en page PDF
- Accessibilité : Conversion de contenu PDF vers d'autres formats
- Prétraitement : Préparation de documents pour OCR ou ML
Avec son focus sur l'extraction précise de contenu et sa faible utilisation mémoire, PdfPig est le choix privilégié pour l'analyse PDF en .NET.
Produits Similaires
- API docTR – Reconnaissance Optique de Caractères en Python
- API EasyOCR - Reconnaissance optique de caractères complète en Python
- API PaddleOCR – Reconnaissance optique de caractères haute performance
- API Python PyMuPDF | Analyse et extraction avancées de PDF
- API spaCy - Traitement du Langage Naturel Industriel