PdfPig: استخراج نصوص PDF متقدم لـ .NET
اقرأ وحلل محتوى PDF بدون تبعيات - نصوص، مواضع، خطوط وبيانات تعريف
ما هو PdfPig؟
PdfPig هي مكتبة .NET مفتوحة المصدر تركز على استخراج المحتوى من ملفات PDF بدون الحاجة إلى تبعيات خارجية. على عكس مولدات PDF، يتخصص PdfPig في قراءة المستندات الموجودة للوصول إلى النصوص ومعلومات الخطوط وبيانات المواضع وهيكل المستند. إنه ذو قيمة خاصة في استخراج البيانات وتحليل المحتوى وسير معالجة المستندات.
المزايا الرئيسية لـ PdfPig تشمل:
- بدون تبعيات: تنفيذ خالص بلغة C#
- وصول منخفض المستوى: تحديد دق لمواضع النصوص ومقاييس الخطوط
- كفاءة في الذاكرة: يعالج مستندات كبيرة بأقل استخدام للموارد
- جاهز للتعرف الضوئي على الحروف (OCR): استخراج نصوص مع تحديد مناطقها للتحليل
- مرخص بـ MIT: مجاني للاستخدام التجاري
مثالي لتحليل المستندات واستخراج النصوص ومعالجة محتوى PDF.
لماذا تختار PdfPig؟
- الدقة: يتعامل مع تنسيقات نصوص PDF المعقدة بشكل صحيح
- الأداء: أسرع من المكتبات المشابهة لـ .NET حسب المقارنات
- الشفافية: الوصول إلى هياكل PDF الأساسية عند الحاجة
- تطوير نشط: يتم تحديثه بانتظام منذ 2018
- متعدد المنصات: يعمل على .NET Standard 2.0+
التثبيت
يتوفر PdfPig عبر NuGet لسهولة التكامل:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
متطلبات النظام: بيئة تشغيل متوافقة مع .NET Standard 2.0
أمثلة برمجية
أمثلة عملية لقدرات PdfPig:
المثال 1: استخراج النصوص الأساسي
يوضح هذا المثال كيفية فتح مستند PDF واستخراج كل المحتوى النصي مع الحفاظ على ترتيب القراءة. يوفر PdfPig وصولاً إلى كل حرف مع موضعه الدقيق في المستند، مما يمكّن من تحليل التخطيط المتقدم بما يتجاوز استخراج النصوص البسيط.
يشمل المخرجات:
- المحتوى النصي الخام بترتيب القراءة
- أرقام الصفحات لكل جزء نصي
- معلومات أساسية عن الخط
المثال 2: تحليل المواضع المتقدم
يتفوق PdfPig في توفير بيانات مواضع دقيقة للعناصر النصية. يوضح هذا المثال كيفية استخراج الكلمات مع تحديد مناطقها، مما يمكّن من مهام مثل اكتشاف الجداول ومعالجة النماذج وتحليل مناطق المحتوى.
المثال 3: استخراج الخطوط وبيانات التعريف
أبعد من المحتوى النصي، يوفر PdfPig وصولاً إلى بيانات تعريف المستند ومعلومات مفصلة عن الخطوط. يوضح هذا المثال استخراج خصائص المستند وتحليل استخدام الخطوط عبر ملف PDF.
ميزات متقدمة
يدعم PdfPig تحليل PDF الاحترافي:
- استخراج الصور: الوصول إلى الصور المضمنة:
استخراج الصور
using var document = PdfDocument.Open("file.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // معالجة بيانات الصورة } }
- التنقل عبر العلامات المرجعية: الوصول إلى مخطط المستند:
العلامات المرجعية
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - الصفحة {bookmark.PageNumber}"); }
- ملفات PDF المشفرة: معالجة الملفات المحمية بكلمة مرور:
PDF مشفر
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("encrypted.pdf", options);
PdfPig مقابل PdfSharp
إليك 5 اختلافات رئيسية بين PdfPig وPDFsharp:
- الوظيفة الأساسية: يتخصص PdfPig في قراءة/استخراج النصوص والمواضع وبيانات التعريف. بينما يركز PDFsharp على إنشاء/تحرير مستندات PDF
- النصوص مقابل الرسومات: يستخرج PdfPig النصوص بدقة متناهية (بما في ذلك الإحداثيات). بينما PDFsharp مُحسّن لرسم النصوص/الأشكال (التقارير، الفواتير، النماذج)
- الوصول إلى المستند: يحلل PdfPig ملفات PDF الموجودة، بينما يمكن لـ PDFsharp تعديل الصفحات وإضافة محتوى ودمج الملفات
- ميزات متقدمة يكشف PdfPig تفاصيل الخطوط ومناطق التحديد وهيكل المستند، بينما يدعم PDFsharp معايير PDF/A والصور والتشفير
- حالات الاستخدام يدعم PdfPig استخراج البيانات، معالجة ما قبل OCR، تحليل المحتوى، بينما يدعم PDFsharp إنشاء التقارير، معالجة PDF، تعبئة النماذج
الخلاصة
يقدم PdfPig وصولاً لا مثيل له لمحتوى PDF لمطوري .NET. مثالي لـ:
- استخراج البيانات: استخلاص المحتوى من التقارير والمستندات
- تحليل المستندات: فهم هيكل وتخطيط PDF
- إمكانية الوصول: تحويل محتوى PDF إلى صيغ أخرى
- المعالجة المسبقة: إعداد المستندات للتعرف الضوئي على الحروف أو التعلم الآلي
مع تركيزه على استخراج المحتوى الدقيق واستهلاك الذاكرة المنخفض، يعد PdfPig الخيار الأمثل لتحليل PDF في .NET.