مكتبة مفتوحة المصدر لتحليل ملفات PDF بلغة Python
تحليل ملفات PDF واستخراج النصوص والصور والمرفقات من مستندات PDF باستخدام مكتبة Python المجانية.
ما هو pypdf؟
Pypdf هي مكتبة Python مفتوحة المصدر قيّمة معروفة بكفاءتها في عمليات PDF المختلفة. يمكن لهذه المكتبة التعامل مع العديد من المهام والعمليات المتعلقة بملفات PDF، ومع ذلك، سنركز فقط على ميزات تحليل PDF في هذه الصفحة.
تتضمن ميزات التحليل البارزة لـ pypdf ما يلي:
- قراءة ملفات PDF: يسمح لك Pypdf بفتح ملفات PDF وقراءتها/تحليلها، مما يجعل من السهل استخراج النص والبيانات الأخرى من مستندات PDF الموجودة.
- استخراج المحتوى: يمكنك تحليل واستخراج النصوص والصور والمرفقات من مستندات PDF وفقًا لمتطلباتك.
البدء باستخدام pypdf
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pypdf
ماك
python -m venv venv
source venv/bin/activate
pip install pypdf
نوافذ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
استخراج النص من ملف PDF
Please check below code snippet for example:الناتج
الصورة أدناه توضح النص المستخرج من ملف PDF
استخراج الصور من ملف PDF
يمكننا استخدام مكتبة pypdf لاستخراج الصور من مستند PDF. وهي تتطلب مكتبة إضافية تسمى pillow لاستخراج الصور. وهي تتكرر في كل صفحة، وتحدد الصور، وتحفظها كملفات صور منفصلة، مع الحفاظ على أسمائها الأصلية. يُرجى مراجعة مقتطف التعليمات البرمجية أدناه على سبيل المثال:
الناتج
يتم تمييز النص المدرج باستخدام الكود أعلاه في المربع الأحمر الموضح أدناه
استخراج المرفقات من ملف PDF
تتيح مكتبة pypdf استخراج المرفقات وحفظها من مستند PDF. فهي تتصفح المرفقات ومحتوياتها وتحفظها في ملفات منفصلة. يُرجى مراجعة مقتطف التعليمات البرمجية أدناه على سبيل المثال:
خاتمة
في الختام، تتميز pypdf بأنها مكتبة Python متعددة الاستخدامات لاستخراج الميزات من مستندات PDF. فهي توفر إمكانيات قوية لتحليل النصوص والصور والمرفقات، مما يجعلها أداة قيمة لاستخراج البيانات وتحليلها وإدارة المستندات.
ومع ذلك، من المهم ملاحظة أن pypdf قد يتسبب في حدوث مشكلات عرضية عند استخراج النص، مثل المسافات الإضافية بين الكلمات والأحرف، والتي قد تؤثر على دقة المحتوى المستخرج. وعلى الرغم من هذا القيد، يظل pypdf أحد الأصول القيمة لتحليل ملفات PDF، وخاصة في السيناريوهات التي لا يكون فيها التنسيق الدقيق للنص هو الاهتمام الأساسي.