PdfPig: .NET-এর জন্য অ্যাডভান্সড PDF টেক্সট এক্সট্রাকশন

নির্ভরতা ছাড়াই PDF কন্টেন্ট পড়ুন এবং বিশ্লেষণ করুন - টেক্সট, পজিশন, ফন্ট এবং মেটাডাটা

PdfPig কি?

PdfPig একটি ওপেন সোর্স .NET লাইব্রেরি যা নেটিভ নির্ভরতা ছাড়াই PDF ফাইল থেকে কন্টেন্ট এক্সট্র্যাক্ট করতে বিশেষায়িত। PDF জেনারেটরদের থেকে আলাদা, PdfPig বিদ্যমান ডকুমেন্ট পড়ার জন্য ডিজাইন করা হয়েছে যাতে টেক্সট, ফন্ট ইনফরমেশন, পজিশনাল ডেটা এবং ডকুমেন্ট স্ট্রাকচার অ্যাক্সেস করা যায়। এটি ডেটা মাইনিং, কন্টেন্ট অ্যানালাইসিস এবং ডকুমেন্ট প্রসেসিং পাইপলাইনের জন্য বিশেষভাবে উপযোগী।

PdfPig-এর প্রধান সুবিধাগুলো:

শূন্য নির্ভরতা: খাঁটি C# ইমপ্লিমেন্টেশন
লো-লেভেল অ্যাক্সেস: সুনির্দিষ্ট টেক্সট পজিশনিং এবং ফন্ট মেট্রিক্স
মেমরি দক্ষ: সর্বনিম্ন ওভারহেডে বড় ডকুমেন্ট হ্যান্ডেল করে
OCR-রেডি: বিশ্লেষণের জন্য বাউন্ডিং বক্স সহ টেক্সট এক্সট্র্যাক্ট করুন
MIT লাইসেন্স: বাণিজ্যিক ব্যবহারের জন্য বিনামূল্যে

ডকুমেন্ট অ্যানালাইসিস, টেক্সট এক্সট্রাকশন এবং PDF কন্টেন্ট প্রসেসিংয়ের জন্য আদর্শ।

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

PdfPig কেন বেছে নেবেন?

সঠিকতা: জটিল PDF টেক্সট লেআউট সঠিকভাবে হ্যান্ডেল করে
পারফরম্যান্স: অনুরূপ .NET লাইব্রেরিগুলোর তুলনায় দ্রুত
স্বচ্ছতা: প্রয়োজন হলে র PDF স্ট্রাকচার অ্যাক্সেস করুন
সক্রিয় ডেভেলপমেন্ট: ২০১৮ থেকে নিয়মিত আপডেট
ক্রস-প্ল্যাটফর্ম: .NET Standard 2.0+ এ কাজ করে

ইনস্টলেশন

PdfPig NuGet এর মাধ্যমে সহজেই ইন্টিগ্রেট করা যায়:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

সিস্টেম প্রয়োজনীয়তা: .NET Standard 2.0 কম্প্যাটিবল রানটাইম

কোড উদাহরণ

PdfPig-এর দক্ষতার ব্যবহারিক উদাহরণ:

PdfPig এক্সট্রাকশন

উদাহরণ ১: বেসিক টেক্সট এক্সট্রাকশন

এই উদাহরণটি দেখায় কিভাবে একটি PDF ডকুমেন্ট খুলে সমস্ত টেক্সট কন্টেন্ট এক্সট্র্যাক্ট করতে হয়, পড়ার ক্রম বজায় রেখে। PdfPig প্রতিটি অক্ষরের সঠিক পজিশন প্রদান করে, যা সাধারণ টেক্সট এক্সট্রাকশনের বাইরে অ্যাডভান্সড লেআউট অ্যানালাইসিস সক্ষম করে।

আউটপুটে অন্তর্ভুক্ত:

পড়ার ক্রমে কাঁচা টেক্সট কন্টেন্ট
প্রতিটি টেক্সট সেগমেন্টের জন্য পেজ নম্বর
বেসিক ফন্ট ইনফরমেশন

উদাহরণ ২: অ্যাডভান্সড পজিশনাল অ্যানালাইসিস

PdfPig টেক্সট এলিমেন্টের জন্য সুনির্দিষ্ট পজিশনাল ডেটা প্রদানে দক্ষ। এই উদাহরণটি দেখায় কিভাবে শব্দগুলিকে তাদের বাউন্ডিং বক্স সহ এক্সট্র্যাক্ট করতে হয়, যা টেবিল ডিটেকশন, ফর্ম প্রসেসিং এবং কন্টেন্ট রিজিয়ন অ্যানালাইসিসের মতো কাজের জন্য উপযোগী।

উদাহরণ ৩: ফন্ট এবং মেটাডাটা এক্সট্রাকশন

টেক্সট কন্টেন্টের বাইরে, PdfPig ডকুমেন্ট মেটাডাটা এবং বিস্তারিত ফন্ট ইনফরমেশন অ্যাক্সেস প্রদান করে। এই উদাহরণটি ডকুমেন্ট প্রপার্টিজ এক্সট্র্যাক্ট এবং PDF জুড়ে ফন্ট ব্যবহার বিশ্লেষণ করতে দেখায়।

অ্যাডভান্সড ফিচার

PdfPig পেশাদার PDF বিশ্লেষণ সমর্থন করে:

ইমেজ এক্সট্রাকশন: এম্বেড করা ইমেজ অ্যাক্সেস করুন:

ইমেজ এক্সট্রাকশন


    using var document = PdfDocument.Open("file.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // ইমেজ ডেটা প্রসেস করুন
        }
    }

বুকমার্ক নেভিগেশন: ডকুমেন্ট আউটলাইন অ্যাক্সেস করুন:

বুকমার্ক


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - পেজ {bookmark.PageNumber}");
    }

এনক্রিপ্টেড PDF: পাসওয়ার্ড-প্রোটেক্টেড ফাইল হ্যান্ডেল করুন:
এনক্রিপ্টেড PDF
```
    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("encrypted.pdf", options);
    
```

PdfPig বনাম PdfSharp

PdfPig এবং PDFsharp-এর মধ্যে ৫টি মূল পার্থক্য:

প্রাথমিক ফাংশন: PdfPig টেক্সট, পজিশন এবং মেটাডাটা পড়া/এক্সট্র্যাক্ট করতে বিশেষায়িত। PDFsharp PDF ডকুমেন্ট তৈরি/এডিট করার উপর ফোকাস করে
টেক্সট বনাম গ্রাফিক্স: PdfPig পিক্সেল-পরিপূর্ণ নির্ভুলতার সাথে টেক্সট এক্সট্র্যাক্ট করে (কোঅর্ডিনেট সহ)। PDFsharp টেক্সট/আকৃতি আঁকার জন্য অপ্টিমাইজড (রিপোর্ট, ইনভয়েস, ফর্ম)
ডকুমেন্ট অ্যাক্সেস: PdfPig বিদ্যমান PDF বিশ্লেষণ করে, যখন PDFsharp পেজ মডিফাই, কন্টেন্ট যোগ, ফাইল মার্জ করতে পারে
অ্যাডভান্সড ফিচার: PdfPig ফন্ট ডিটেইল, বাউন্ডিং বক্স এবং ডকুমেন্ট স্ট্রাকচার প্রকাশ করে, যখন PDFsharp PDF/A স্ট্যান্ডার্ড, ইমেজ এবং এনক্রিপশন সমর্থন করে
ব্যবহারের ক্ষেত্র: PdfPig ডেটা মাইনিং, OCR প্রিপ্রসেসিং, কন্টেন্ট অ্যানালাইসিসের জন্য, যখন PDFsharp রিপোর্ট জেনারেশন, PDF ম্যানিপুলেশন, ফর্ম ফিলিংয়ের জন্য

উপসংহার

PdfPig .NET ডেভেলপারদের জন্য অতুলনীয় PDF কন্টেন্ট অ্যাক্সেস প্রদান করে। নিম্নলিখিত ক্ষেত্রে আদর্শ:

ডেটা এক্সট্রাকশন: রিপোর্ট এবং ডকুমেন্ট থেকে কন্টেন্ট মাইনিং
ডকুমেন্ট অ্যানালাইসিস: PDF স্ট্রাকচার এবং লেআউট বোঝা
অ্যাক্সেসিবিলিটি: PDF কন্টেন্টকে অন্যান্য ফরম্যাটে কনভার্ট করা
প্রি-প্রসেসিং: OCR বা ML-এর জন্য ডকুমেন্ট প্রস্তুত করা

সঠিক কন্টেন্ট এক্সট্রাকশন এবং লো মেমরি ব্যবহারের উপর ফোকাস করে, PdfPig .NET-এ PDF বিশ্লেষণের জন্য সেরা পছন্দ।