PdfPig: Extragere Avansată de Text din PDF pentru .NET

Citește și analizează conținut PDF fără dependințe - text, poziții, fonturi și metadate

Ce este PdfPig?

PdfPig este o bibliotecă .NET open-source specializată în extragerea de conținut din fișiere PDF fără dependințe native. Spre deosebire de generatoarele de PDF, PdfPig se concentrează pe citirea documentelor existente pentru a accesa text, informații despre fonturi, date de poziționare și structura documentului. Este deosebit de utilă pentru minerit de date, analiză de conținut și procesarea documentelor.

Avantaje cheie ale PdfPig:

Fără dependințe: Implementare pură în C#
Acces la nivel scăzut: Poziționare precisă a textului și metrici ale fonturilor
Eficient la memorie: Gestionează documente mari cu overhead minim
Pregătit pentru OCR: Extrage text cu casete de delimitare pentru analiză
Licență MIT: Gratuit pentru uz comercial

Ideal pentru analiza documentelor, extragerea de text și procesarea conținutului PDF.

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

De ce să alegi PdfPig?

Precizie: Gestionează corect layout-uri complexe de text PDF
Performanță: Mai rapid decât alte biblioteci .NET similare
Transparență: Acces la structurile brute PDF când este necesar
Dezvoltare activă: Actualizări regulate din 2018
Cross-platform: Funcționează pe .NET Standard 2.0+

Instalare

PdfPig este disponibil prin NuGet pentru o integrare ușoară:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Cerințe de sistem: Runtime compatibil cu .NET Standard 2.0

Exemple de Cod

Exemple practice ale capabilităților PdfPig:

Extragere PdfPig

Exemplul 1: Extragere de Text de Bază

Acest exemplu demonstrează cum să deschizi un document PDF și să extragi tot conținutul textual păstrând ordinea de citire. PdfPig oferă acces la fiecare literă cu poziția sa exactă în document.

Rezultatul include:

Conținut text brut în ordinea de citire
Numere de pagină pentru fiecare segment de text
Informații de bază despre fonturi

Exemplul 2: Analiză Avansată de Poziție

PdfPig excelă în furnizarea de date precise de poziționare pentru elementele de text. Acest exemplu arată cum să extragi cuvinte cu casetele lor de delimitare.

Exemplul 3: Extragere de Fonturi și Metadate

Pe lângă conținutul textual, PdfPig oferă acces la metadatele documentului și informații detaliate despre fonturi.

Funcționalități Avansate

PdfPig suportă analiză profesională PDF:

Extragere de imagini: Accesează imaginile încorporate:

Extragere de Imagini


    using var document = PdfDocument.Open("fisier.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // Procesează datele imaginii
        }
    }

Navigare prin bookmark-uri: Accesează structura documentului:

Bookmark-uri


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}");
    }

PDF-uri criptate: Gestionează fișiere protejate cu parolă:

PDF Criptat


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("criptat.pdf", options);

PdfPig vs PdfSharp

5 diferențe cheie între PdfPig și PDFsharp:

Funcție principală: PdfPig se specializează în citirea/extragerea de text și metadate. PDFsharp se concentrează pe crearea/editarea documentelor PDF
Text vs grafică: PdfPig extrage text cu precizie pixel-perfect. PDFsharp este optimizat pentru desenarea textului/formelor
Acces la document: PdfPig analizează PDF-uri existente, PDFsharp poate modifica pagini
Funcționalități avansate: PdfPig dezvăluie detalii despre fonturi și structura documentului, PDFsharp suportă standarde PDF/A
Cazuri de utilizare: PdfPig pentru minerit de date, PDFsharp pentru generarea de rapoarte

Concluzie

PdfPig oferă acces neegalat la conținutul PDF pentru dezvoltatorii .NET. Ideal pentru:

Extragere de date: Minerit de conținut din rapoarte
Analiză de documente: Înțelegerea structurii PDF
Accesibilitate: Conversia conținutului PDF în alte formate
Preprocesare: Pregătirea documentelor pentru OCR sau ML

Cu accentul pe extragerea precisă și utilizarea eficientă a memoriei, PdfPig este alegerea supremă pentru analiza PDF în .NET.