مكتبة محلل Python PDF مفتوحة المصدر
تحليل ملفات PDF واستخراج النصوص والصور والمرفقات من مستندات PDF باستخدام مكتبة Python المجانية.
ما هو pypdf؟
Pypdf هي مكتبة Python ذات مصدر مفتوح وقيمة معروفة بكفاءتها في عمليات PDF المختلفة. يمكن لهذه المكتبة التعامل مع العديد من المهام والعمليات المتعلقة بملفات PDF، ومع ذلك، سنركز فقط على ميزات تحليل PDF الخاصة بها في هذه الصفحة.
تشمل ميزات التحليل البارزة لـ pypdf ما يلي:
- قراءة ملفات PDF: يتيح لك Pypdf فتح ملفات PDF وقراءتها/تحليلها، مما يجعل من السهل استخراج النص والبيانات الأخرى من مستندات PDF الموجودة.
- استخراج المحتوى: يمكنك تحليل واستخراج النصوص والصور والمرفقات من مستندات PDF وفقًا لمتطلباتك.
الشروع في العمل مع pypdf
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pypdf
ماك
python -m venv venv
source venv/bin/activate
pip install pypdf
شبابيك
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
استخراج النص من قوات الدفاع الشعبي
Please check below code snippet for example:انتاج
الصورة أدناه توضح النص المستخرج من ملف PDF
استخراج الصور من قوات الدفاع الشعبي
يمكننا استخدام مكتبة pypdf لاستخراج الصور من مستند PDF. يتطلب الأمر مكتبة إضافية تسمى وسادة لاستخراج الصور. فهو يتكرر خلال كل صفحة، ويحدد الصور، ويحفظها كملفات صور منفصلة، مع الحفاظ على أسمائها الأصلية. يرجى التحقق من مقتطف الكود أدناه على سبيل المثال:
انتاج
يتم تمييز النص المدرج باستخدام الكود أعلاه في المربع الأحمر الموضح أدناه
استخراج المرفقات من PDF
تسمح مكتبة pypdf باستخراج المرفقات وحفظها من مستند PDF. يتكرر من خلال المرفقات ومحتوياتها ويحفظها في ملفات منفصلة. يرجى التحقق من مقتطف الكود أدناه على سبيل المثال:
خاتمة
في الختام، pypdf تبرز كمكتبة بايثون متعددة الاستخدامات لاستخراج الميزات من مستندات PDF. فهو يوفر إمكانات قوية لتحليل النصوص والصور والمرفقات، مما يجعله أداة قيمة لاستخراج البيانات وتحليلها وإدارة المستندات.
ومع ذلك، من المهم ملاحظة أن pypdf قد يعرض مشكلات عرضية عند استخراج النص، مثل وجود مسافات إضافية بين الكلمات والأحرف، مما قد يؤثر على دقة المحتوى المستخرج. على الرغم من هذا القيد، يظل pypdf أحد الأصول القيمة لتحليل ملفات PDF، خاصة في السيناريوهات التي لا يكون فيها التنسيق الدقيق للنص هو الاهتمام الأساسي.