مكتبة مفتوحة المصدر لتحليل ملفات PDF بلغة Python
مكتبة Python مجانية ومفتوحة المصدر لتحليل ملفات PDF واستخراج النص مع معلومات التنسيق.
ما هو pdfminer.six؟
Pdfminer.six هي مكتبة وأدوات مفتوحة المصدر بلغة Python لاستخراج البيانات من مستندات PDF. يمكنك تحليل مستندات PDF واستخراج النص وجدول المحتويات والمحتويات المُوسومة وما إلى ذلك من ملفات PDF لتحليل البيانات.
فيما يلي قائمة مختصرة لميزات التحليل الخاصة به:
- استخراج النص:استخراج محتوى النص من مستندات PDF بما في ذلك معلومات التخطيط والتنسيق مثل لون النص والخط والموقع وما إلى ذلك.
- استخراج معلومات الخط: استخراج المعلومات حول الخطوط المستخدمة في مستندات PDF.
البدء باستخدام pdfminer.six
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ماك
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
نوافذ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
استخراج النص من مستند PDF
يمكنك استخدام مكتبة pdfminer.six في Python لاستخراج النص من مستند PDF باستخدام وظيفة extract_text كما هو موضح في مقتطف التعليمات البرمجية أدناه:
الناتج
تُظهر لقطة الشاشة التالية النص المستخرج من مستند PDF:
استخراج معلومات الخط من مستند PDF
يمكننا أيضًا استخراج المعلومات حول الخطوط المستخدمة في مستند PDF مثل اسم الخط وحجم الخط من خلال التكرار عبر عناصر التخطيط لكل صفحة في ملف PDF. على سبيل المثال، راجع مقتطف التعليمات البرمجية أدناه:
الناتج
تُظهر لقطة الشاشة التالية معلومات الخط المستخرجة من مستند PDF:
خاتمة
في الختام، يتمتع pdfminer.six بالقدرة على استخراج النصوص والمعلومات الأخرى من مستندات PDF ولكنه يفتقر إلى الوظائف مثل استخراج الصور والجداول من ملفات PDF.
من المهم ملاحظة أن مكتبة pdfminer.six تدعم استخراج صفحات PDF كصور، لكن هذا يختلف عن استخراج الصور المضمنة في مستندات PDF التي لا تدعمها مكتبة pdfminer.six. ومع ذلك، لا يزال بإمكان المطورين الاعتماد عليها لتحليل ملفات PDF في Python لاستخراج النص لتلبية احتياجات تحليل البيانات الخاصة بهم.