مكتبة محلل Python PDF مفتوحة المصدر

تحليل ملفات PDF واستخراج النصوص والصور والمرفقات من مستندات PDF باستخدام مكتبة Python المجانية.

ما هو pypdf؟

Pypdf هي مكتبة Python ذات مصدر مفتوح وقيمة معروفة بكفاءتها في عمليات PDF المختلفة. يمكن لهذه المكتبة التعامل مع العديد من المهام والعمليات المتعلقة بملفات PDF، ومع ذلك، سنركز فقط على ميزات تحليل PDF الخاصة بها في هذه الصفحة.

تشمل ميزات التحليل البارزة لـ pypdf ما يلي:

  • قراءة ملفات PDF: يتيح لك Pypdf فتح ملفات PDF وقراءتها/تحليلها، مما يجعل من السهل استخراج النص والبيانات الأخرى من مستندات PDF الموجودة.
  • استخراج المحتوى: يمكنك تحليل واستخراج النصوص والصور والمرفقات من مستندات PDF وفقًا لمتطلباتك.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الشروع في العمل مع pypdf

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pypdf

ماك


python -m venv venv
source venv/bin/activate
pip install pypdf

شبابيك


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

استخراج النص من قوات الدفاع الشعبي

Please check below code snippet for example:

انتاج

الصورة أدناه توضح النص المستخرج من ملف PDF

استخراج الصور من قوات الدفاع الشعبي

يمكننا استخدام مكتبة pypdf لاستخراج الصور من مستند PDF. يتطلب الأمر مكتبة إضافية تسمى وسادة لاستخراج الصور. فهو يتكرر خلال كل صفحة، ويحدد الصور، ويحفظها كملفات صور منفصلة، مع الحفاظ على أسمائها الأصلية. يرجى التحقق من مقتطف الكود أدناه على سبيل المثال:

انتاج

يتم تمييز النص المدرج باستخدام الكود أعلاه في المربع الأحمر الموضح أدناه

استخراج المرفقات من PDF

تسمح مكتبة pypdf باستخراج المرفقات وحفظها من مستند PDF. يتكرر من خلال المرفقات ومحتوياتها ويحفظها في ملفات منفصلة. يرجى التحقق من مقتطف الكود أدناه على سبيل المثال:

خاتمة

في الختام، pypdf تبرز كمكتبة بايثون متعددة الاستخدامات لاستخراج الميزات من مستندات PDF. فهو يوفر إمكانات قوية لتحليل النصوص والصور والمرفقات، مما يجعله أداة قيمة لاستخراج البيانات وتحليلها وإدارة المستندات.

ومع ذلك، من المهم ملاحظة أن pypdf قد يعرض مشكلات عرضية عند استخراج النص، مثل وجود مسافات إضافية بين الكلمات والأحرف، مما قد يؤثر على دقة المحتوى المستخرج. على الرغم من هذا القيد، يظل pypdf أحد الأصول القيمة لتحليل ملفات PDF، خاصة في السيناريوهات التي لا يكون فيها التنسيق الدقيق للنص هو الاهتمام الأساسي.

منتجات مماثلة

 عربي