1. منتجات
  2.   محرر
  3.   Java
  4.   Apache PDFBox
 
  

Apache PDFBox: مجموعة أدوات متكاملة لملفات PDF في جافا

استخراج النص، معالجة المستندات، ملء النماذج والمزيد - كل ذلك بلغة جافا الخالصة

ما هي Apache PDFBox؟

Apache PDFBox هي مكتبة جافا مفتوحة المصدر مصممة لمعالجة ملفات PDF بسلاسة، مما يمكّن المطورين من إنشاء وتحرير واستخراج المحتوى من مستندات PDF برمجيًا. كواحدة من أشهر مكتبات PDF في جافا، تتفوق PDFBox في مهام مثل استخراج النص من ملفات PDF، دمج ملفات PDF متعددة، وإضافة التوقيعات الرقمية، كل ذلك بواجهة برمجة خفيفة وبدون تكاليف ترخيص. سواء كنت تحتاج إلى تحليل PDF في جافا، إنشاء PDF، أو التوافق مع PDF/A، تدعم هذه المكتبة ميزات متقدمة مثل تكامل OCR، ملء النماذج، وتحويل HTML إلى PDF. مع تبعيات جاهزة لـ Maven (مثل pdfbox-maven) ووثائق شاملة، تبسط PDFBox سير العمل المعقدة - مما يجعلها مثالية للتطبيقات المؤسسية، أتمتة المستندات، واستخراج البيانات. مقارنةً بالبدائل مثل iText، تبرز Apache PDFBox لمرونتها مفتوحة المصدر، مجتمعها النشط، وتوافقها عبر المنصات. تعمق في برنامجنا التعليمي لـ PDFBox لاستكشاف أمثلة أكواد جافا وإطلاق الإمكانات الكاملة لمعالجة PDF في جافا.

المزايا الرئيسية لـ PDFBox تشمل:

  • حل متكامل: قدرات الاستخراج والإنشاء معًا
  • جافا خالصة: لا توجد تبعيات أصلية
  • تطوير نشط: مدعومة من مؤسسة Apache Software Foundation
  • ميزات شاملة: استخراج النص، التقسيم، الدمج، التوقيع
  • دعم النماذج: قراءة وملء نماذج PDF

مثالية لأنظمة إدارة المستندات، استخراج المحتوى، وأتمتة PDF.

GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

لماذا تختار PDFBox؟

  • النضج: مستقرة منذ عام 2002 مع تحديثات منتظمة
  • تنوع الاستخدام: قدرات القراءة والكتابة معًا
  • دعم المعايير: تعمل مع مستندات PDF 1.7 وPDF/A
  • المجتمع: قاعدة مستخدمين كبيرة ووثائق موسعة
  • التكامل: تعمل مع جميع أطر عمل جافا

التثبيت

PDFBox متاحة عبر Maven Central لسهولة التكامل:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0


Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

متطلبات النظام: جافا 8 أو أحدث

أمثلة الأكواد

أمثلة عملية لقدرات PDFBox:

Apache PDFBox

المثال 1: استخراج النص الأساسي من مستند PDF في جافا

يُظهر هذا المثال كيفية استخراج النص من مستند PDF مع الحفاظ على التنسيق والهيكل. توفر PDFBox قدرات متقدمة لاستخراج النص تحافظ على ترتيب القراءة وتتعامل مع التخطيطات المعقدة.

يشمل المخرجات:

  • محتوى النص المهيكل
  • استخراج صفحة بصفحة
  • الحفاظ على التنسيق الأساسي

المثال 2: إنشاء مستند PDF من الصفر في جافا

تتفوق PDFBox في كل من القراءة وإنشاء ملفات PDF. يُظهر هذا المثال إنشاء مستند PDF جديد مع نص وتنسيق أساسي.

المثال 3: إضافة رؤوس وتذييلات إلى صفحات PDF في جافا

توفر PDFBox دعمًا شاملًا لإضافة رؤوس وتذييلات إلى صفحات PDF من داخل تطبيق جافا الخاص بك. يُظهر نموذج الكود التالي كيفية تحقيق ذلك باستخدام واجهة برمجة تطبيقات PDFBox لجافا.

ميزات متقدمة

تدعم PDFBox معالجة PDF الاحترافية:

  • استخراج الصور: الوصول إلى الصور المضمنة:

    استخراج الصور

    
        PDDocument document = PDDocument.load(new File("document.pdf"));
        for (PDPage page : document.getPages()) {
            PDResources resources = page.getResources();
            for (COSName name : resources.getXObjectNames()) {
                PDXObject xobject = resources.getXObject(name);
                if (xobject instanceof PDImageXObject) {
                    BufferedImage image = ((PDImageXObject) xobject).getImage();
                    // معالجة الصورة
                }
            }
        }
        
    
  • تقسيم المستند: تقسيم ملفات PDF إلى ملفات متعددة:

    تقسيم PDF

    
        Splitter splitter = new Splitter();
        List pages = splitter.split(document);
        for (int i = 0; i < pages.size(); i++) {
            pages.get(i).save("page-" + (i+1) + ".pdf");
        }
        
    
  • ملفات PDF المشفرة: التعامل مع الملفات المحمية بكلمة مرور:

    PDF مشفر

    
        String password = "secure123";
        FileInputStream fis = new FileInputStream("encrypted.pdf");
        PDDocument doc = PDDocument.load(fis, password);
        
    

PDFBox مقابل iText

فيما يلي الاختلافات الرئيسية الخمسة بين PDFBox وiText:

  • الترخيص: PDFBox مرخصة تحت Apache (مفتوحة المصدر)، بينما iText لها ترخيص تجاري لمعظم حالات الاستخدام
  • تركيز الميزات: توفر PDFBox قدرات قراءة/كتابة متوازنة، بينما تتخصص iText في إنشاء PDF
  • الأداء: iText أسرع بشكل عام في إنشاء المستندات، بينما تتفوق PDFBox في استخراج النص
  • المجتمع: PDFBox لديها اعتماد أوسع كمصدر مفتوح، بينما تقدم iText دعمًا احترافيًا
  • حالات الاستخدام: PDFBox مثالية للتحليل والمعالجة الأساسية، بينما iText أفضل لإنشاء PDF بكميات كبيرة

الختام

تقدم Apache PDFBox معالجة شاملة لملفات PDF لمطوري جافا. مثالية لـ:

  • استخراج المحتوى: استخراج النص والبيانات من ملفات PDF
  • أتمتة المستندات: إنشاء التقارير والنماذج
  • إدارة المستندات: تقسيم ودمج وتحويل ملفات PDF
  • معالجة النماذج: قراءة وملء النماذج التفاعلية

بترخيصها مفتوح المصدر ومجموعة ميزاتها الشاملة، تعد PDFBox الخيار الأول لمعالجة PDF القائمة على جافا.

منتجات مماثلة

 عربي