PdfPig: Extracció Avançada de Text PDF per a .NET
Llegiu i analitzeu contingut PDF sense dependències - text, posicions, fonts i metadades
Què és PdfPig?
PdfPig és una llibreria de codi obert per a .NET especialitzada en extreure contingut de fitxers PDF sense dependències natives. A diferència dels generadors de PDF, PdfPig se centra en llegir documents existents per accedir a text, informació de fonts, dades de posició i estructura del document. És especialment útil per a mineria de dades, anàlisi de contingut i pipelines de processament de documents.
Avantatges clau de PdfPig:
- Zero dependències: Implementació pura en C#
- Accés de baix nivell: Posicionament precís de text i mètriques de fonts
- Eficient en memòria: Gestiona documents grans amb mínim sobrecàrrega
- Preparat per OCR: Extreu text amb caixes delimitadores per a anàlisi
- Llicència MIT: Lliure per a ús comercial
Ideal per a anàlisi de documents, extracció de text i processament de contingut PDF.
Per què triar PdfPig?
- Precisió: Gestiona correctament disposicions complexes de text en PDF
- Rendiment: Mesurat com més ràpid que llibreries .NET similars
- Transparència: Accés a estructures PDF crues quan es necessita
- Desenvolupament actiu: Actualitzacions regulars des del 2018
- Multiplataforma: Funciona en .NET Standard 2.0+
Instal·lació
PdfPig està disponible via NuGet per a una fàcil integració:
Consola de Package Manager
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Requisits del sistema: Runtime compatible amb .NET Standard 2.0
Exemples de Codi
Exemples pràctics de les capacitats de PdfPig:
Exemple 1: Extracció Bàsica de Text
Aquest exemple demostra com obrir un document PDF i extreure tot el contingut de text preservant l'ordre de lectura. PdfPig proporciona accés a cada lletra amb la seva posició exacta al document, permetent anàlisi de disposició avançada més enllà de la simple extracció de text.
La sortida inclou:
- Contingut de text en brut en ordre de lectura
- Números de pàgina per a cada segment de text
- Informació bàsica de fonts
Exemple 2: Anàlisi Avançada de Posicions
PdfPig destaca en proporcionar dades de posició precises per a elements de text. Aquest exemple mostra com extreure paraules amb les seves caixes delimitadores, permetent tasques com detecció de taules, processament de formularis i anàlisi de regions de contingut.
Exemple 3: Extracció de Fonts i Metadades
Més enllà del contingut de text, PdfPig proporciona accés a metadades del document i informació detallada de fonts. Aquest exemple demostra com extreure propietats del document i analitzar l'ús de fonts al llarg del PDF.
Funcionalitats Avançades
PdfPig suporta anàlisi professional de PDFs:
- Extracció d'imatges: Accés a imatges incrustades:
Extracció d'Imatges
using var document = PdfDocument.Open("fitxer.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Processar dades d'imatge } }
- Navegació per marcadors: Accés a l'esquema del document:
Marcadors
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Pàgina {bookmark.PageNumber}"); }
- PDFs xifrats: Gestiona fitxers protegits amb contrasenya:
PDF Xifrat
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("xifrat.pdf", options);
PdfPig vs PdfSharp
Les 5 diferències clau entre PdfPig i PDFsharp:
- Funció principal: PdfPig s'especialitza en llegir/extreure text, posicions i metadades. PDFsharp se centra en crear/editar documents PDF
- Text vs Gràfics: PdfPig extreu text amb precisió de píxel (incloent coordenades). PDFsharp està optimitzat per dibuixar text/formes (informes, factures, formularis)
- Accés al document: PdfPig analitza PDFs existents, mentre que PDFsharp pot modificar pàgines, afegir contingut, fusionar fitxers
- Funcionalitats avançades: PdfPig revela detalls de fonts, caixes delimitadores i estructura del document, mentre que PDFsharp suporta estàndards PDF/A, imatges i xifratge
- Casos d'ús: PdfPig és per a mineria de dades, preprocessat OCR, anàlisi de contingut, mentre que PDFsharp és per a generació d'informes, manipulació de PDF, ompliment de formularis
Conclusió
PdfPig ofereix un accés sense igual al contingut PDF per a desenvolupadors .NET. Ideal per a:
- Extracció de dades: Mineria de contingut d'informes i documents
- Anàlisi de documents: Entendre l'estructura i disposició de PDFs
- Accessibilitat: Convertir contingut PDF a altres formats
- Preprocessament: Preparar documents per a OCR o ML
Amb el seu enfocament en l'extracció precisa de contingut i baix ús de memòria, PdfPig és l'elecció ideal per a anàlisi de PDF en .NET.
Productes Similars
- API de spaCy - Processament del Llenguatge Natural a Nivell Industrial
- API docTR – Reconeixement Òptic de Caràcters a Python
- API PaddleOCR – Reconeixement Òptic de Caràctres d'Alta Eficiència
- EasyOCR API - Reconeixement Òptic de Caràcters (OCR) complet en Python
- pdfminer.six Biblioteca Python | Extreu text dels PDF