PdfPig: .NET के लिए उन्नत PDF टेक्स्ट निष्कर्षण

बिना डिपेंडेंसी के PDF कंटेंट पढ़ें और विश्लेषण करें - टेक्स्ट, पोजीशन, फॉन्ट्स और मेटाडेटा

PdfPig क्या है?

PdfPig एक ओपन सोर्स .NET लाइब्रेरी है जो PDF फाइलों से कंटेंट निकालने पर केंद्रित है बिना किसी एक्सटर्नल डिपेंडेंसी के। PDF जनरेटर्स के विपरीत, PdfPig मौजूदा डॉक्युमेंट्स को पढ़ने और टेक्स्ट, फॉन्ट इनफॉर्मेशन, पोजिशनल डेटा और डॉक्युमेंट स्ट्रक्चर तक पहुंचने के लिए विशेष रूप से डिज़ाइन किया गया है।

PdfPig के मुख्य लाभ:

कोई डिपेंडेंसी नहीं: शुद्ध C# इम्प्लीमेंटेशन
लो-लेवल एक्सेस: सटीक टेक्स्ट पोजिशनिंग और फॉन्ट मेट्रिक्स
मेमोरी एफिशिएंट: बड़े डॉक्युमेंट्स को मिनिमम ओवरहेड के साथ हैंडल करता है
OCR-तैयार: एनालिसिस के लिए बाउंडिंग बॉक्स के साथ टेक्स्ट निकालता है
MIT लाइसेंस: कमर्शियल यूज के लिए फ्री

डॉक्युमेंट एनालिसिस, टेक्स्ट एक्सट्रैक्शन और PDF कंटेंट प्रोसेसिंग के लिए आदर्श।

गिटहब आँकड़े

नाम:
भाषा:
सितारे:
कांटे:
लाइसेंस:
रिपॉजिटरी को अंतिम बार अद्यतन किया गया था

PdfPig क्यों चुनें?

एक्यूरेसी: कॉम्प्लेक्स PDF टेक्स्ट लेआउट को सही तरीके से हैंडल करता है
परफॉरमेंस: समान .NET लाइब्रेरीज़ से तेज
ट्रांसपेरेंसी: जरूरत पड़ने पर रॉ PDF स्ट्रक्चर्स तक पहुंच
एक्टिव डेवलपमेंट: 2018 से नियमित अपडेट
क्रॉस-प्लेटफॉर्म: .NET Standard 2.0+ पर काम करता है

इंस्टालेशन

PdfPig NuGet के माध्यम से उपलब्ध है आसान इंटीग्रेशन के लिए:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

सिस्टम रिक्वायरमेंट्स: .NET Standard 2.0 कंपैटिबल रनटाइम

कोड उदाहरण

PdfPig की क्षमताओं के प्रैक्टिकल उदाहरण:

PdfPig एक्सट्रैक्शन

उदाहरण 1: बेसिक टेक्स्ट एक्सट्रैक्शन

यह उदाहरण दिखाता है कि कैसे PDF डॉक्युमेंट को खोलें और रीडिंग ऑर्डर को मेंटेन करते हुए सभी टेक्स्ट कंटेंट निकालें। PdfPig डॉक्युमेंट में प्रत्येक करैक्टर तक उसकी एक्जैक्ट पोजीशन के साथ एक्सेस प्रदान करता है।

आउटपुट शामिल करता है:

रीडिंग ऑर्डर में रॉ टेक्स्ट कंटेंट
प्रत्येक टेक्स्ट सेगमेंट के लिए पेज नंबर्स
बेसिक फॉन्ट इनफॉर्मेशन

उदाहरण 2: एडवांस्ड पोजिशनल एनालिसिस

PdfPig टेक्स्ट एलिमेंट्स के लिए प्रिसाइज पोजिशनल डेटा प्रदान करने में उत्कृष्ट है। यह उदाहरण दिखाता है कि कैसे वर्ड्स को उनके बाउंडिंग बॉक्सेस के साथ निकाला जाए।

उदाहरण 3: फॉन्ट और मेटाडेटा एक्सट्रैक्शन

टेक्स्ट कंटेंट के अलावा, PdfPig डॉक्युमेंट मेटाडेटा और डिटेल्ड फॉन्ट इनफॉर्मेशन तक एक्सेस प्रदान करता है।

एडवांस्ड फीचर्स

PdfPig प्रोफेशनल PDF एनालिसिस सपोर्ट करता है:

इमेज एक्सट्रैक्शन: एम्बेडेड इमेजेस तक पहुंच:

इमेज एक्सट्रैक्शन


    using var document = PdfDocument.Open("फाइल.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // इमेज डेटा प्रोसेस करें
        }
    }

बुकमार्क नेविगेशन: डॉक्युमेंट आउटलाइन तक पहुंच:

बुकमार्क्स


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - पेज {bookmark.PageNumber}");
    }

एन्क्रिप्टेड PDFs: पासवर्ड प्रोटेक्टेड फाइल्स को हैंडल करें:
एन्क्रिप्टेड PDF
```
    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("एन्क्रिप्टेड.pdf", options);
    
```

PdfPig बनाम PdfSharp

PdfPig और PDFsharp के बीच 5 मुख्य अंतर:

प्राथमिक कार्य:PdfPig टेक्स्ट/मेटाडेटा रीडिंग/एक्सट्रैक्शन में विशेषज्ञ है। PDFsharp PDF डॉक्युमेंट्स क्रिएट/एडिट करने पर केंद्रित है
टेक्स्ट बनाम ग्राफिक्स:PdfPig पिक्सेल-परफेक्ट प्रिसिजन के साथ टेक्स्ट निकालता है। PDFsharp टेक्स्ट/शेप्स ड्रॉइंग के लिए ऑप्टिमाइज्ड है
डॉक्युमेंट एक्सेस:PdfPig मौजूदा PDFs का विश्लेषण करता है, जबकि PDFsharp पेजेस को मॉडिफाई कर सकता है
एडवांस्ड फीचर्सPdfPig फॉन्ट डिटेल्स और डॉक्युमेंट स्ट्रक्चर को उजागर करता है, जबकि PDFsharp PDF/A स्टैंडर्ड्स को सपोर्ट करता है
यूज केसPdfPig डेटा माइनिंग, कंटेंट एनालिसिस के लिए है, जबकि PDFsharp रिपोर्ट जनरेशन, PDF मैनिपुलेशन के लिए है

निष्कर्ष

PdfPig .NET डेवलपर्स को अद्वितीय PDF कंटेंट एक्सेस प्रदान करता है। इसके लिए आदर्श:

डेटा एक्सट्रैक्शन: रिपोर्ट्स से कंटेंट माइनिंग
डॉक्युमेंट एनालिसिस: PDF स्ट्रक्चर को समझना
एक्सेसिबिलिटी: PDF कंटेंट को अन्य फॉर्मेट्स में कन्वर्ट करना
प्री-प्रोसेसिंग: OCR या ML के लिए डॉक्युमेंट्स तैयार करना

सटीक एक्सट्रैक्शन और लो मेमोरी यूजेज पर फोकस के साथ, PdfPig .NET में PDF एनालिसिस के लिए सर्वोत्तम विकल्प है।