PdfPig: .NET के लिए उन्नत PDF टेक्स्ट निष्कर्षण
बिना डिपेंडेंसी के PDF कंटेंट पढ़ें और विश्लेषण करें - टेक्स्ट, पोजीशन, फॉन्ट्स और मेटाडेटा
PdfPig क्या है?
PdfPig एक ओपन सोर्स .NET लाइब्रेरी है जो PDF फाइलों से कंटेंट निकालने पर केंद्रित है बिना किसी एक्सटर्नल डिपेंडेंसी के। PDF जनरेटर्स के विपरीत, PdfPig मौजूदा डॉक्युमेंट्स को पढ़ने और टेक्स्ट, फॉन्ट इनफॉर्मेशन, पोजिशनल डेटा और डॉक्युमेंट स्ट्रक्चर तक पहुंचने के लिए विशेष रूप से डिज़ाइन किया गया है।
PdfPig के मुख्य लाभ:
- कोई डिपेंडेंसी नहीं: शुद्ध C# इम्प्लीमेंटेशन
- लो-लेवल एक्सेस: सटीक टेक्स्ट पोजिशनिंग और फॉन्ट मेट्रिक्स
- मेमोरी एफिशिएंट: बड़े डॉक्युमेंट्स को मिनिमम ओवरहेड के साथ हैंडल करता है
- OCR-तैयार: एनालिसिस के लिए बाउंडिंग बॉक्स के साथ टेक्स्ट निकालता है
- MIT लाइसेंस: कमर्शियल यूज के लिए फ्री
डॉक्युमेंट एनालिसिस, टेक्स्ट एक्सट्रैक्शन और PDF कंटेंट प्रोसेसिंग के लिए आदर्श।
PdfPig क्यों चुनें?
- एक्यूरेसी: कॉम्प्लेक्स PDF टेक्स्ट लेआउट को सही तरीके से हैंडल करता है
- परफॉरमेंस: समान .NET लाइब्रेरीज़ से तेज
- ट्रांसपेरेंसी: जरूरत पड़ने पर रॉ PDF स्ट्रक्चर्स तक पहुंच
- एक्टिव डेवलपमेंट: 2018 से नियमित अपडेट
- क्रॉस-प्लेटफॉर्म: .NET Standard 2.0+ पर काम करता है
इंस्टालेशन
PdfPig NuGet के माध्यम से उपलब्ध है आसान इंटीग्रेशन के लिए:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
सिस्टम रिक्वायरमेंट्स: .NET Standard 2.0 कंपैटिबल रनटाइम
कोड उदाहरण
PdfPig की क्षमताओं के प्रैक्टिकल उदाहरण:
उदाहरण 1: बेसिक टेक्स्ट एक्सट्रैक्शन
यह उदाहरण दिखाता है कि कैसे PDF डॉक्युमेंट को खोलें और रीडिंग ऑर्डर को मेंटेन करते हुए सभी टेक्स्ट कंटेंट निकालें। PdfPig डॉक्युमेंट में प्रत्येक करैक्टर तक उसकी एक्जैक्ट पोजीशन के साथ एक्सेस प्रदान करता है।
आउटपुट शामिल करता है:
- रीडिंग ऑर्डर में रॉ टेक्स्ट कंटेंट
- प्रत्येक टेक्स्ट सेगमेंट के लिए पेज नंबर्स
- बेसिक फॉन्ट इनफॉर्मेशन
उदाहरण 2: एडवांस्ड पोजिशनल एनालिसिस
PdfPig टेक्स्ट एलिमेंट्स के लिए प्रिसाइज पोजिशनल डेटा प्रदान करने में उत्कृष्ट है। यह उदाहरण दिखाता है कि कैसे वर्ड्स को उनके बाउंडिंग बॉक्सेस के साथ निकाला जाए।
उदाहरण 3: फॉन्ट और मेटाडेटा एक्सट्रैक्शन
टेक्स्ट कंटेंट के अलावा, PdfPig डॉक्युमेंट मेटाडेटा और डिटेल्ड फॉन्ट इनफॉर्मेशन तक एक्सेस प्रदान करता है।
एडवांस्ड फीचर्स
PdfPig प्रोफेशनल PDF एनालिसिस सपोर्ट करता है:
- इमेज एक्सट्रैक्शन: एम्बेडेड इमेजेस तक पहुंच:
इमेज एक्सट्रैक्शन
using var document = PdfDocument.Open("फाइल.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // इमेज डेटा प्रोसेस करें } }
- बुकमार्क नेविगेशन: डॉक्युमेंट आउटलाइन तक पहुंच:
बुकमार्क्स
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - पेज {bookmark.PageNumber}"); }
- एन्क्रिप्टेड PDFs: पासवर्ड प्रोटेक्टेड फाइल्स को हैंडल करें:
एन्क्रिप्टेड PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("एन्क्रिप्टेड.pdf", options);
PdfPig बनाम PdfSharp
PdfPig और PDFsharp के बीच 5 मुख्य अंतर:
- प्राथमिक कार्य:PdfPig टेक्स्ट/मेटाडेटा रीडिंग/एक्सट्रैक्शन में विशेषज्ञ है। PDFsharp PDF डॉक्युमेंट्स क्रिएट/एडिट करने पर केंद्रित है
- टेक्स्ट बनाम ग्राफिक्स:PdfPig पिक्सेल-परफेक्ट प्रिसिजन के साथ टेक्स्ट निकालता है। PDFsharp टेक्स्ट/शेप्स ड्रॉइंग के लिए ऑप्टिमाइज्ड है
- डॉक्युमेंट एक्सेस:PdfPig मौजूदा PDFs का विश्लेषण करता है, जबकि PDFsharp पेजेस को मॉडिफाई कर सकता है
- एडवांस्ड फीचर्सPdfPig फॉन्ट डिटेल्स और डॉक्युमेंट स्ट्रक्चर को उजागर करता है, जबकि PDFsharp PDF/A स्टैंडर्ड्स को सपोर्ट करता है
- यूज केसPdfPig डेटा माइनिंग, कंटेंट एनालिसिस के लिए है, जबकि PDFsharp रिपोर्ट जनरेशन, PDF मैनिपुलेशन के लिए है
निष्कर्ष
PdfPig .NET डेवलपर्स को अद्वितीय PDF कंटेंट एक्सेस प्रदान करता है। इसके लिए आदर्श:
- डेटा एक्सट्रैक्शन: रिपोर्ट्स से कंटेंट माइनिंग
- डॉक्युमेंट एनालिसिस: PDF स्ट्रक्चर को समझना
- एक्सेसिबिलिटी: PDF कंटेंट को अन्य फॉर्मेट्स में कन्वर्ट करना
- प्री-प्रोसेसिंग: OCR या ML के लिए डॉक्युमेंट्स तैयार करना
सटीक एक्सट्रैक्शन और लो मेमोरी यूजेज पर फोकस के साथ, PdfPig .NET में PDF एनालिसिस के लिए सर्वोत्तम विकल्प है।