PdfPig: .NET-এর জন্য অ্যাডভান্সড PDF টেক্সট এক্সট্রাকশন
নির্ভরতা ছাড়াই PDF কন্টেন্ট পড়ুন এবং বিশ্লেষণ করুন - টেক্সট, পজিশন, ফন্ট এবং মেটাডাটা
PdfPig কি?
PdfPig একটি ওপেন সোর্স .NET লাইব্রেরি যা নেটিভ নির্ভরতা ছাড়াই PDF ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে বিশেষায়িত। PDF জেনারেটরদের থেকে আলাদা, PdfPig বিদ্যমান ডকুমেন্ট পড়ার জন্য ডিজাইন করা হয়েছে যাতে টেক্সট, ফন্ট ইনফরমেশন, পজিশনাল ডেটা এবং ডকুমেন্ট স্ট্রাকচার অ্যাক্সেস করা যায়। এটি ডেটা মাইনিং, কন্টেন্ট অ্যানালাইসিস এবং ডকুমেন্ট প্রসেসিং পাইপলাইনের জন্য বিশেষভাবে উপযোগী।
PdfPig-এর প্রধান সুবিধাগুলো:
- শূন্য নির্ভরতা: খাঁটি C# ইমপ্লিমেন্টেশন
- লো-লেভেল অ্যাক্সেস: সুনির্দিষ্ট টেক্সট পজিশনিং এবং ফন্ট মেট্রিক্স
- মেমরি দক্ষ: সর্বনিম্ন ওভারহেডে বড় ডকুমেন্ট হ্যান্ডেল করে
- OCR-রেডি: বিশ্লেষণের জন্য বাউন্ডিং বক্স সহ টেক্সট এক্সট্র্যাক্ট করুন
- MIT লাইসেন্স: বাণিজ্যিক ব্যবহারের জন্য বিনামূল্যে
ডকুমেন্ট অ্যানালাইসিস, টেক্সট এক্সট্রাকশন এবং PDF কন্টেন্ট প্রসেসিংয়ের জন্য আদর্শ।
PdfPig কেন বেছে নেবেন?
- সঠিকতা: জটিল PDF টেক্সট লেআউট সঠিকভাবে হ্যান্ডেল করে
- পারফরম্যান্স: অনুরূপ .NET লাইব্রেরিগুলোর তুলনায় দ্রুত
- স্বচ্ছতা: প্রয়োজন হলে র PDF স্ট্রাকচার অ্যাক্সেস করুন
- সক্রিয় ডেভেলপমেন্ট: ২০১৮ থেকে নিয়মিত আপডেট
- ক্রস-প্ল্যাটফর্ম: .NET Standard 2.0+ এ কাজ করে
ইনস্টলেশন
PdfPig NuGet এর মাধ্যমে সহজেই ইন্টিগ্রেট করা যায়:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
সিস্টেম প্রয়োজনীয়তা: .NET Standard 2.0 কম্প্যাটিবল রানটাইম
কোড উদাহরণ
PdfPig-এর দক্ষতার ব্যবহারিক উদাহরণ:
উদাহরণ ১: বেসিক টেক্সট এক্সট্রাকশন
এই উদাহরণটি দেখায় কিভাবে একটি PDF ডকুমেন্ট খুলে সমস্ত টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করতে হয়, পড়ার ক্রম বজায় রেখে। PdfPig প্রতিটি অক্ষরের সঠিক পজিশন প্রদান করে, যা সাধারণ টেক্সট এক্সট্রাকশনের বাইরে অ্যাডভান্সড লেআউট অ্যানালাইসিস সক্ষম করে।
আউটপুটে অন্তর্ভুক্ত:
- পড়ার ক্রমে কাঁচা টেক্সট কন্টেন্ট
- প্রতিটি টেক্সট সেগমেন্টের জন্য পেজ নম্বর
- বেসিক ফন্ট ইনফরমেশন
উদাহরণ ২: অ্যাডভান্সড পজিশনাল অ্যানালাইসিস
PdfPig টেক্সট এলিমেন্টের জন্য সুনির্দিষ্ট পজিশনাল ডেটা প্রদানে দক্ষ। এই উদাহরণটি দেখায় কিভাবে শব্দগুলিকে তাদের বাউন্ডিং বক্স সহ এক্সট্র্যাক্ট করতে হয়, যা টেবিল ডিটেকশন, ফর্ম প্রসেসিং এবং কন্টেন্ট রিজিয়ন অ্যানালাইসিসের মতো কাজের জন্য উপযোগী।
উদাহরণ ৩: ফন্ট এবং মেটাডাটা এক্সট্রাকশন
টেক্সট কন্টেন্টের বাইরে, PdfPig ডকুমেন্ট মেটাডাটা এবং বিস্তারিত ফন্ট ইনফরমেশন অ্যাক্সেস প্রদান করে। এই উদাহরণটি ডকুমেন্ট প্রপার্টিজ এক্সট্র্যাক্ট এবং PDF জুড়ে ফন্ট ব্যবহার বিশ্লেষণ করতে দেখায়।
অ্যাডভান্সড ফিচার
PdfPig পেশাদার PDF বিশ্লেষণ সমর্থন করে:
- ইমেজ এক্সট্রাকশন: এম্বেড করা ইমেজ অ্যাক্সেস করুন:
ইমেজ এক্সট্রাকশন
using var document = PdfDocument.Open("file.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // ইমেজ ডেটা প্রসেস করুন } }
- বুকমার্ক নেভিগেশন: ডকুমেন্ট আউটলাইন অ্যাক্সেস করুন:
বুকমার্ক
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - পেজ {bookmark.PageNumber}"); }
- এনক্রিপ্টেড PDF: পাসওয়ার্ড-প্রোটেক্টেড ফাইল হ্যান্ডেল করুন:
এনক্রিপ্টেড PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("encrypted.pdf", options);
PdfPig বনাম PdfSharp
PdfPig এবং PDFsharp-এর মধ্যে ৫টি মূল পার্থক্য:
- প্রাথমিক ফাংশন: PdfPig টেক্সট, পজিশন এবং মেটাডাটা পড়া/এক্সট্র্যাক্ট করতে বিশেষায়িত। PDFsharp PDF ডকুমেন্ট তৈরি/এডিট করার উপর ফোকাস করে
- টেক্সট বনাম গ্রাফিক্স: PdfPig পিক্সেল-পরিপূর্ণ নির্ভুলতার সাথে টেক্সট এক্সট্র্যাক্ট করে (কোঅর্ডিনেট সহ)। PDFsharp টেক্সট/আকৃতি আঁকার জন্য অপ্টিমাইজড (রিপোর্ট, ইনভয়েস, ফর্ম)
- ডকুমেন্ট অ্যাক্সেস: PdfPig বিদ্যমান PDF বিশ্লেষণ করে, যখন PDFsharp পেজ মডিফাই, কন্টেন্ট যোগ, ফাইল মার্জ করতে পারে
- অ্যাডভান্সড ফিচার: PdfPig ফন্ট ডিটেইল, বাউন্ডিং বক্স এবং ডকুমেন্ট স্ট্রাকচার প্রকাশ করে, যখন PDFsharp PDF/A স্ট্যান্ডার্ড, ইমেজ এবং এনক্রিপশন সমর্থন করে
- ব্যবহারের ক্ষেত্র: PdfPig ডেটা মাইনিং, OCR প্রিপ্রসেসিং, কন্টেন্ট অ্যানালাইসিসের জন্য, যখন PDFsharp রিপোর্ট জেনারেশন, PDF ম্যানিপুলেশন, ফর্ম ফিলিংয়ের জন্য
উপসংহার
PdfPig .NET ডেভেলপারদের জন্য অতুলনীয় PDF কন্টেন্ট অ্যাক্সেস প্রদান করে। নিম্নলিখিত ক্ষেত্রে আদর্শ:
- ডেটা এক্সট্রাকশন: রিপোর্ট এবং ডকুমেন্ট থেকে কন্টেন্ট মাইনিং
- ডকুমেন্ট অ্যানালাইসিস: PDF স্ট্রাকচার এবং লেআউট বোঝা
- অ্যাক্সেসিবিলিটি: PDF কন্টেন্টকে অন্যান্য ফরম্যাটে কনভার্ট করা
- প্রি-প্রসেসিং: OCR বা ML-এর জন্য ডকুমেন্ট প্রস্তুত করা
সঠিক কন্টেন্ট এক্সট্রাকশন এবং লো মেমরি ব্যবহারের উপর ফোকাস করে, PdfPig .NET-এ PDF বিশ্লেষণের জন্য সেরা পছন্দ।