1. Products
  2.   Parser
  3.   .NET
  4.   PdfPig
 
  

PdfPig: Extragere Avansată de Text din PDF pentru .NET

Citește și analizează conținut PDF fără dependințe - text, poziții, fonturi și metadate

Ce este PdfPig?

PdfPig este o bibliotecă .NET open-source specializată în extragerea de conținut din fișiere PDF fără dependințe native. Spre deosebire de generatoarele de PDF, PdfPig se concentrează pe citirea documentelor existente pentru a accesa text, informații despre fonturi, date de poziționare și structura documentului. Este deosebit de utilă pentru minerit de date, analiză de conținut și procesarea documentelor.

Avantaje cheie ale PdfPig:

  • Fără dependințe: Implementare pură în C#
  • Acces la nivel scăzut: Poziționare precisă a textului și metrici ale fonturilor
  • Eficient la memorie: Gestionează documente mari cu overhead minim
  • Pregătit pentru OCR: Extrage text cu casete de delimitare pentru analiză
  • Licență MIT: Gratuit pentru uz comercial

Ideal pentru analiza documentelor, extragerea de text și procesarea conținutului PDF.

GitHub

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

De ce să alegi PdfPig?

  • Precizie: Gestionează corect layout-uri complexe de text PDF
  • Performanță: Mai rapid decât alte biblioteci .NET similare
  • Transparență: Acces la structurile brute PDF când este necesar
  • Dezvoltare activă: Actualizări regulate din 2018
  • Cross-platform: Funcționează pe .NET Standard 2.0+

Instalare

PdfPig este disponibil prin NuGet pentru o integrare ușoară:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Cerințe de sistem: Runtime compatibil cu .NET Standard 2.0

Exemple de Cod

Exemple practice ale capabilităților PdfPig:

Extragere PdfPig

Exemplul 1: Extragere de Text de Bază

Acest exemplu demonstrează cum să deschizi un document PDF și să extragi tot conținutul textual păstrând ordinea de citire. PdfPig oferă acces la fiecare literă cu poziția sa exactă în document.

Rezultatul include:

  • Conținut text brut în ordinea de citire
  • Numere de pagină pentru fiecare segment de text
  • Informații de bază despre fonturi

Exemplul 2: Analiză Avansată de Poziție

PdfPig excelă în furnizarea de date precise de poziționare pentru elementele de text. Acest exemplu arată cum să extragi cuvinte cu casetele lor de delimitare.

Exemplul 3: Extragere de Fonturi și Metadate

Pe lângă conținutul textual, PdfPig oferă acces la metadatele documentului și informații detaliate despre fonturi.

Funcționalități Avansate

PdfPig suportă analiză profesională PDF:

  • Extragere de imagini: Accesează imaginile încorporate:

    Extragere de Imagini

    
        using var document = PdfDocument.Open("fisier.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Procesează datele imaginii
            }
        }
        
    
  • Navigare prin bookmark-uri: Accesează structura documentului:

    Bookmark-uri

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Pagina {bookmark.PageNumber}");
        }
        
    
  • PDF-uri criptate: Gestionează fișiere protejate cu parolă:

    PDF Criptat

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("criptat.pdf", options);
        
    

PdfPig vs PdfSharp

5 diferențe cheie între PdfPig și PDFsharp:

  • Funcție principală: PdfPig se specializează în citirea/extragerea de text și metadate. PDFsharp se concentrează pe crearea/editarea documentelor PDF
  • Text vs grafică: PdfPig extrage text cu precizie pixel-perfect. PDFsharp este optimizat pentru desenarea textului/formelor
  • Acces la document: PdfPig analizează PDF-uri existente, PDFsharp poate modifica pagini
  • Funcționalități avansate: PdfPig dezvăluie detalii despre fonturi și structura documentului, PDFsharp suportă standarde PDF/A
  • Cazuri de utilizare: PdfPig pentru minerit de date, PDFsharp pentru generarea de rapoarte

Concluzie

PdfPig oferă acces neegalat la conținutul PDF pentru dezvoltatorii .NET. Ideal pentru:

  • Extragere de date: Minerit de conținut din rapoarte
  • Analiză de documente: Înțelegerea structurii PDF
  • Accesibilitate: Conversia conținutului PDF în alte formate
  • Preprocesare: Pregătirea documentelor pentru OCR sau ML

Cu accentul pe extragerea precisă și utilizarea eficientă a memoriei, PdfPig este alegerea supremă pentru analiza PDF în .NET.

Similar Products

 Romanian