PdfPig: Προηγμένη Εξαγωγή Κειμένου PDF για .NET

Διαβάστε και αναλύστε περιεχόμενο PDF χωρίς εξαρτήσεις - κείμενο, θέσεις, γραμματοσειρές και μεταδεδομένα

Τι είναι το PdfPig;

Το PdfPig είναι μια βιβλιοθήκη .NET ανοιχτού κώδικα που επικεντρώνεται στην εξαγωγή περιεχομένου από αρχεία PDF χωρίς εξωτερικές εξαρτήσεις. Σε αντίθεση με τους γεννήτριες PDF, το PdfPig ειδικεύεται στην ανάγνωση υπαρχόντων εγγράφων για πρόσβαση σε κείμενο, πληροφορίες γραμματοσειρών, δεδομένα θέσης και δομή εγγράφου. Ιδιαίτερα πολύτιμο για εξόρυξη δεδομένων, ανάλυση περιεχομένου και αγωγούς επεξεργασίας εγγράφων.

Βασικά πλεονεκτήματα του PdfPig:

  • Χωρίς εξαρτήσεις: Καθαρή υλοποίηση C#
  • Πρόσβαση χαμηλού επιπέδου: Ακριβής τοποθέτηση κειμένου και μετρήσεις γραμματοσειρών
  • Αποδοτικότητα μνήμης: Χειρίζεται μεγάλα έγγραφα με ελάχιστο επιπλέον φορτίο
  • Έτοιμο για OCR: Εξάγετε κείμενο με πλαίσια οριοθέτησης για ανάλυση
  • Άδεια MIT: Δωρεάν για εμπορική χρήση

Ιδανικό για ανάλυση εγγράφων, εξαγωγή κειμένου και επεξεργασία περιεχομένου PDF.

GitHub

Στατιστικά GitHub

Ονομα:
Γλώσσα:
Αστέρια:
Πιρούνια:
Αδεια:
Το αποθετήριο ενημερώθηκε τελευταία φορά στις

Γιατί να επιλέξετε το PdfPig;

  • Ακρίβεια: Χειρίζεται σωστά πολύπλοκες διατάξεις κειμένου PDF
  • Απόδοση: Γρηγορότερο από παρόμοιες βιβλιοθήκες .NET
  • Διαφάνεια: Πρόσβαση σε ακατέργαστες δομές PDF όταν χρειάζεται
  • Ενεργή ανάπτυξη: Τακτικές ενημερώσεις από το 2018
  • Διαπλατφορμικό: Λειτουργεί σε .NET Standard 2.0+

Εγκατάσταση

Το PdfPig είναι διαθέσιμο μέσω του NuGet για εύκολη ενσωμάτωση:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

Απαιτήσεις συστήματος: Συμβατό περιβάλλον εκτέλεσης .NET Standard 2.0

Παραδείγματα Κώδικα

Πρακτικά παραδείγματα των δυνατοτήτων του PdfPig:

Εξαγωγή PdfPig

Παράδειγμα 1: Βασική Εξαγωγή Κειμένου

Αυτό το παράδειγμα δείχνει πώς να ανοίξετε ένα έγγραφο PDF και να εξαγάγετε όλο το περιεχόμενο κειμένου διατηρώντας τη σειρά ανάγνωσης. Το PdfPig παρέχει πρόσβαση σε κάθε χαρακτήρα με την ακριβή του θέση στο έγγραφο.

Η έξοδος περιλαμβάνει:

  • Ακατέργαστο περιεχόμενο κειμένου στη σειρά ανάγνωσης
  • Αριθμούς σελίδων για κάθε τμήμα κειμένου
  • Βασικές πληροφορίες γραμματοσειρών

Παράδειγμα 2: Προηγμένη Ανάλυση Θέσης

Το PdfPig διακρίνεται στην παροχή ακριβών δεδομένων θέσης για στοιχεία κειμένου. Αυτό το παράδειγμα δείχνει πώς να εξάγετε λέξεις με τα πλαίσια οριοθέτησής τους.

Παράδειγμα 3: Εξαγωγή Γραμματοσειρών και Μεταδεδομένων

Εκτός από το περιεχόμενο κειμένου, το PdfPig παρέχει πρόσβαση σε μεταδεδομένα εγγράφων και λεπτομερείς πληροφορίες γραμματοσειρών.

Προηγμένες Λειτουργίες

Το PdfPig υποστηρίζει επαγγελματική ανάλυση PDF:

  • Εξαγωγή εικόνων: Πρόσβαση σε ενσωματωμένες εικόνες:

    Εξαγωγή Εικόνων

    
        using var document = PdfDocument.Open("αρχείο.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // Επεξεργασία δεδομένων εικόνας
            }
        }
        
    
  • Πλοήγηση σελιδοδεικτών: Πρόσβαση στη δομή του εγγράφου:

    Σελιδοδείκτες

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - Σελίδα {bookmark.PageNumber}");
        }
        
    
  • Κρυπτογραφημένα PDF: Χειρισμός αρχείων προστατευμένων με κωδικό:

    Κρυπτογραφημένο PDF

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("κρυπτογραφημένο.pdf", options);
        
    

PdfPig έναντι PdfSharp

5 βασικές διαφορές μεταξύ PdfPig και PDFsharp:

  • Κύρια λειτουργία: Το PdfPig ειδικεύεται στην ανάγνωση/εξαγωγή κειμένου και μεταδεδομένων. Το PDFsharp επικεντρώνεται στη δημιουργία/επεξεργασία εγγράφων PDF
  • Κείμενο έναντι γραφικών: Το PdfPig εξάγει κείμενο με ακρίβεια pixel. Το PDFsharp είναι βελτιστοποιημένο για σχεδίαση κειμένου/σχημάτων
  • Πρόσβαση σε έγγραφα: Το PdfPig αναλύει υπάρχοντα PDF, ενώ το PDFsharp μπορεί να τροποποιήσει σελίδες
  • Προηγμένες λειτουργίες: Το PdfPig αποκαλύπτει λεπτομέρειες γραμματοσειρών και δομή εγγράφου, ενώ το PDFsharp υποστηρίζει πρότυπα PDF/A
  • Σενάρια χρήσης: Το PdfPig για εξόρυξη δεδομένων, το PDFsharp για δημιουργία αναφορών

Συμπέρασμα

Το PdfPig προσφέρει απαράμιλλη πρόσβαση σε περιεχόμενο PDF για προγραμματιστές .NET. Ιδανικό για:

  • Εξαγωγή δεδομένων: Εξόρυξη περιεχομένου από αναφορές
  • Ανάλυση εγγράφων: Κατανόηση της δομής PDF
  • Προσβασιμότητα: Μετατροπή περιεχομένου PDF σε άλλες μορφές
  • Προεπεξεργασία: Προετοιμασία εγγράφων για OCR ή ML

Με την εστίαση στην ακριβή εξαγωγή και τη χαμηλή χρήση μνήμης, το PdfPig είναι η καλύτερη επιλογή για ανάλυση PDF στο .NET.

Παρόμοια Προϊόντα

 Ελληνικά