Apache PDFBox: Java-এর জন্য সম্পূর্ণ PDF টুলকিট

টেক্সট এক্সট্রাক্ট করুন, ডকুমেন্ট ম্যানিপুলেট করুন, ফর্ম ফিল করুন এবং আরও অনেক কিছু - সম্পূর্ণ Java-তে

Apache PDFBox কি?

Apache PDFBox একটি শক্তিশালী ওপেন সোর্স Java লাইব্রেরি যা Java-তে PDF প্রসেসিংকে সহজ করে তোলে, ডেভেলপারদের প্রোগ্রাম্যাটিকভাবে PDF ডকুমেন্ট তৈরি, এডিট এবং কন্টেন্ট এক্সট্রাক্ট করার সুবিধা দেয়। সবচেয়ে জনপ্রিয় Java PDF লাইব্রেরিগুলোর মধ্যে একটি হিসেবে PDFBox PDF থেকে টেক্সট এক্সট্রাক্ট করা, একাধিক PDF ফাইল মার্জ করা এবং ডিজিটাল সিগনেচার যোগ করার মতো টাস্কে উৎকর্ষতা প্রদর্শন করে - সবই একটি লাইটওয়েট API এবং শূন্য লাইসেন্সিং খরচে। আপনি যদি Java-তে PDF পার্সিং, PDF জেনারেশন বা PDF/A কমপ্লায়েন্সের প্রয়োজন হোন, এই লাইব্রেরি OCR ইন্টিগ্রেশন, ফর্ম ফিলিং এবং HTML-থেকে-PDF কনভার্শনের মতো অ্যাডভান্সড ফিচার সাপোর্ট করে। Maven-রেডি ডিপেন্ডেন্সি (যেমন pdfbox-maven) এবং বিস্তারিত ডকুমেন্টেশনের সাথে, PDFBox কমপ্লেক্স ওয়ার্কফ্লোকে সহজ করে - যা এটিকে এন্টারপ্রাইজ অ্যাপ্লিকেশন, ডকুমেন্ট অটোমেশন এবং ডেটা এক্সট্রাকশনের জন্য আদর্শ করে তোলে। iText-এর মতো অল্টারনেটিভের তুলনায়, Apache PDFBox ওপেন সোর্স ফ্লেক্সিবিলিটি, অ্যাক্টিভ কমিউনিটি এবং ক্রস-প্ল্যাটফর্ম কম্প্যাটিবিলিটির জন্য সেরা। Java-তে PDF ম্যানিপুলেশনের সম্পূর্ণ সম্ভাবনা উন্মোচন করতে আমাদের PDFBox টিউটোরিয়াল এক্সপ্লোর করুন এবং Java কোড উদাহরণ দেখুন।

PDFBox-এর প্রধান সুবিধাগুলো:

সম্পূর্ণ সমাধান: এক্সট্রাকশন এবং ক্রিয়েশন উভয় ক্যাপাবিলিটি
বিশুদ্ধ Java: কোনো নেটিভ ডিপেন্ডেন্সি নেই
সক্রিয় ডেভেলপমেন্ট: Apache Software Foundation দ্বারা সমর্থিত
সম্পূর্ণ ফিচার: টেক্সট এক্সট্রাকশন, স্প্লিটিং, মার্জিং, সাইনিং
ফর্ম সাপোর্ট: PDF ফর্ম পড়ুন এবং ফিল করুন

ডকুমেন্ট ম্যানেজমেন্ট সিস্টেম, কন্টেন্ট এক্সট্রাকশন এবং PDF অটোমেশনের জন্য আদর্শ।

GitHub Stats

Name:
Language:
Stars:
Forks:
License:
Repository was last updated at

কেন PDFBox বেছে নেবেন?

পরিপক্বতা: 2002 সাল থেকে স্থিতিশীল, নিয়মিত আপডেট সহ
বহুমুখিতা: রিড এবং রাইট উভয় ক্যাপাবিলিটি
স্ট্যান্ডার্ড সাপোর্ট: PDF 1.7 এবং PDF/A ডকুমেন্ট হ্যান্ডেল করে
কমিউনিটি: বড় ইউজার বেস এবং বিস্তারিত ডকুমেন্টেশন
ইন্টিগ্রেশন: সব Java-ভিত্তিক ফ্রেমওয়ার্কের সাথে কাজ করে

ইন্সটলেশন

PDFBox Maven Central-এর মাধ্যমে সহজেই ইন্টিগ্রেট করা যায়:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0

Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

সিস্টেম রিকোয়ারমেন্ট: Java 8 বা পরবর্তী

কোড উদাহরণ

PDFBox-এর ক্যাপাবিলিটির ব্যবহারিক উদাহরণ:

Apache PDFBox

উদাহরণ 1: Java-তে PDF ডকুমেন্ট থেকে বেসিক টেক্সট এক্সট্রাকশন

এই উদাহরণটি দেখায় কিভাবে PDF ডকুমেন্ট থেকে টেক্সট এক্সট্রাক্ট করতে হয়, ফরম্যাটিং এবং স্ট্রাকচার সংরক্ষণ করে। PDFBox অ্যাডভান্সড টেক্সট স্ট্রিপিং ক্যাপাবিলিটি প্রদান করে যা রিডিং অর্ডার মেইন্টেইন করে এবং কমপ্লেক্স লেআউট হ্যান্ডেল করে।

আউটপুটে যা অন্তর্ভুক্ত:

স্ট্রাকচার্ড টেক্সট কন্টেন্ট
পৃষ্ঠা অনুযায়ী এক্সট্রাকশন
বেসিক ফরম্যাটিং সংরক্ষণ

উদাহরণ 2: Java-তে স্ক্র্যাচ থেকে PDF ডকুমেন্ট ক্রিয়েশন

PDFBox PDF পড়া এবং তৈরি করা উভয় ক্ষেত্রেই উৎকর্ষতা প্রদর্শন করে। এই উদাহরণটি টেক্সট এবং বেসিক ফরম্যাটিং সহ একটি নতুন PDF ডকুমেন্ট জেনারেট করার পদ্ধতি দেখায়।

উদাহরণ 3: Java-তে PDF পেজে হেডার এবং ফুটার যোগ করা

PDFBox আপনার Java অ্যাপ্লিকেশন থেকে PDF পেজে হেডার এবং ফুটার যোগ করার জন্য সম্পূর্ণ সাপোর্ট প্রদান করে। নিচের কোড স্যাম্পলটি PDFBox API for Java ব্যবহার করে এটি কিভাবে অর্জন করা যায় তা দেখায়।

অ্যাডভান্সড ফিচার

PDFBox প্রফেশনাল PDF প্রসেসিং সাপোর্ট করে:

ইমেজ এক্সট্রাকশন: এম্বেডেড ইমেজ অ্যাক্সেস করুন:

ইমেজ এক্সট্রাকশন


    PDDocument document = PDDocument.load(new File("document.pdf"));
    for (PDPage page : document.getPages()) {
        PDResources resources = page.getResources();
        for (COSName name : resources.getXObjectNames()) {
            PDXObject xobject = resources.getXObject(name);
            if (xobject instanceof PDImageXObject) {
                BufferedImage image = ((PDImageXObject) xobject).getImage();
                // ইমেজ প্রসেস করুন
            }
        }
    }

ডকুমেন্ট স্প্লিটিং: PDF-কে একাধিক ফাইলে বিভক্ত করুন:

PDF স্প্লিটিং


    Splitter splitter = new Splitter();
    List pages = splitter.split(document);
    for (int i = 0; i < pages.size(); i++) {
        pages.get(i).save("page-" + (i+1) + ".pdf");
    }

এনক্রিপ্টেড PDF: পাসওয়ার্ড-প্রোটেক্টেড ফাইল হ্যান্ডেল করুন:
এনক্রিপ্টেড PDF
```
    String password = "secure123";
    FileInputStream fis = new FileInputStream("encrypted.pdf");
    PDDocument doc = PDDocument.load(fis, password);
    
```

PDFBox বনাম iText

PDFBox এবং iText-এর মধ্যে ৫টি মূল পার্থক্য:

লাইসেন্স: PDFBox Apache-লাইসেন্সড (ওপেন সোর্স), অন্যদিকে iText-এর বেশিরভাগ ব্যবহারের জন্য কমার্শিয়াল লাইসেন্স আছে
ফিচার ফোকাস: PDFBox রিড/রাইট ক্যাপাবিলিটি প্রদান করে, অন্যদিকে iText PDF জেনারেশনে স্পেশালাইজড
পারফরমেন্স: iText সাধারণত ডকুমেন্ট ক্রিয়েশনে দ্রুততর, অন্যদিকে PDFBox টেক্সট এক্সট্রাকশনে উৎকৃষ্ট
কমিউনিটি: PDFBox-এর ওপেন সোর্স অ্যাডপশন বিস্তৃত, অন্যদিকে iText প্রফেশনাল সাপোর্ট অফার করে
ইউজ কেস: PDFBox অ্যানালাইসিস এবং বেসিক ম্যানিপুলেশনের জন্য আদর্শ, অন্যদিকে iText হাই-ভলিউম PDF জেনারেশনের জন্য ভাল

উপসংহার

Apache PDFBox Java ডেভেলপারদের জন্য সম্পূর্ণ PDF প্রসেসিং প্রদান করে। নিম্নলিখিত ক্ষেত্রে আদর্শ:

কন্টেন্ট এক্সট্রাকশন: PDF থেকে টেক্সট এবং ডেটা মাইনিং
ডকুমেন্ট অটোমেশন: রিপোর্ট এবং ফর্ম জেনারেশন
ডকুমেন্ট ম্যানেজমেন্ট: PDF স্প্লিটিং, মার্জিং এবং ট্রান্সফর্মিং
ফর্ম প্রসেসিং: ইন্টারেক্টিভ ফর্ম পড়া এবং ফিলিং

ওপেন সোর্স লাইসেন্স এবং সম্পূর্ণ ফিচার সেটের সাথে, PDFBox Java-ভিত্তিক PDF প্রসেসিংয়ের জন্য প্রথম পছন্দ।