مكتبة مفتوحة المصدر لتحليل ملفات PDF بلغة Python

تحليل ملفات PDF واستخراج النصوص والصور والمرفقات من مستندات PDF باستخدام مكتبة Python المجانية.

ما هو pypdf؟

Pypdf هي مكتبة Python مفتوحة المصدر قيّمة معروفة بكفاءتها في عمليات PDF المختلفة. يمكن لهذه المكتبة التعامل مع العديد من المهام والعمليات المتعلقة بملفات PDF، ومع ذلك، سنركز فقط على ميزات تحليل PDF في هذه الصفحة.

تتضمن ميزات التحليل البارزة لـ pypdf ما يلي:

  • قراءة ملفات PDF: يسمح لك Pypdf بفتح ملفات PDF وقراءتها/تحليلها، مما يجعل من السهل استخراج النص والبيانات الأخرى من مستندات PDF الموجودة.
  • استخراج المحتوى: يمكنك تحليل واستخراج النصوص والصور والمرفقات من مستندات PDF وفقًا لمتطلباتك.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

البدء باستخدام pypdf

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pypdf

ماك


python -m venv venv
source venv/bin/activate
pip install pypdf

نوافذ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

استخراج النص من ملف PDF

Please check below code snippet for example:

الناتج

الصورة أدناه توضح النص المستخرج من ملف PDF

استخراج الصور من ملف PDF

يمكننا استخدام مكتبة pypdf لاستخراج الصور من مستند PDF. وهي تتطلب مكتبة إضافية تسمى pillow لاستخراج الصور. وهي تتكرر في كل صفحة، وتحدد الصور، وتحفظها كملفات صور منفصلة، مع الحفاظ على أسمائها الأصلية. يُرجى مراجعة مقتطف التعليمات البرمجية أدناه على سبيل المثال:

الناتج

يتم تمييز النص المدرج باستخدام الكود أعلاه في المربع الأحمر الموضح أدناه

استخراج المرفقات من ملف PDF

تتيح مكتبة pypdf استخراج المرفقات وحفظها من مستند PDF. فهي تتصفح المرفقات ومحتوياتها وتحفظها في ملفات منفصلة. يُرجى مراجعة مقتطف التعليمات البرمجية أدناه على سبيل المثال:

خاتمة

في الختام، تتميز pypdf بأنها مكتبة Python متعددة الاستخدامات لاستخراج الميزات من مستندات PDF. فهي توفر إمكانيات قوية لتحليل النصوص والصور والمرفقات، مما يجعلها أداة قيمة لاستخراج البيانات وتحليلها وإدارة المستندات.

ومع ذلك، من المهم ملاحظة أن pypdf قد يتسبب في حدوث مشكلات عرضية عند استخراج النص، مثل المسافات الإضافية بين الكلمات والأحرف، والتي قد تؤثر على دقة المحتوى المستخرج. وعلى الرغم من هذا القيد، يظل pypdf أحد الأصول القيمة لتحليل ملفات PDF، وخاصة في السيناريوهات التي لا يكون فيها التنسيق الدقيق للنص هو الاهتمام الأساسي.

منتجات مماثلة

 عربي