1. منتجات
  2.   محلل
  3.   Python
  4.   pdfminer.six
 
  

مكتبة مفتوحة المصدر لتحليل ملفات PDF بلغة Python

مكتبة Python مجانية ومفتوحة المصدر لتحليل ملفات PDF واستخراج النص مع معلومات التنسيق.

ما هو pdfminer.six؟

Pdfminer.six هي مكتبة وأدوات مفتوحة المصدر بلغة Python لاستخراج البيانات من مستندات PDF. يمكنك تحليل مستندات PDF واستخراج النص وجدول المحتويات والمحتويات المُوسومة وما إلى ذلك من ملفات PDF لتحليل البيانات.

فيما يلي قائمة مختصرة لميزات التحليل الخاصة به:

  • استخراج النص:استخراج محتوى النص من مستندات PDF بما في ذلك معلومات التخطيط والتنسيق مثل لون النص والخط والموقع وما إلى ذلك.
  • استخراج معلومات الخط: استخراج المعلومات حول الخطوط المستخدمة في مستندات PDF.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

البدء باستخدام pdfminer.six

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ماك


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

نوافذ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

استخراج النص من مستند PDF

يمكنك استخدام مكتبة pdfminer.six في Python لاستخراج النص من مستند PDF باستخدام وظيفة extract_text كما هو موضح في مقتطف التعليمات البرمجية أدناه:

الناتج

تُظهر لقطة الشاشة التالية النص المستخرج من مستند PDF:

استخراج معلومات الخط من مستند PDF

يمكننا أيضًا استخراج المعلومات حول الخطوط المستخدمة في مستند PDF مثل اسم الخط وحجم الخط من خلال التكرار عبر عناصر التخطيط لكل صفحة في ملف PDF. على سبيل المثال، راجع مقتطف التعليمات البرمجية أدناه:

الناتج

تُظهر لقطة الشاشة التالية معلومات الخط المستخرجة من مستند PDF:

خاتمة

في الختام، يتمتع pdfminer.six بالقدرة على استخراج النصوص والمعلومات الأخرى من مستندات PDF ولكنه يفتقر إلى الوظائف مثل استخراج الصور والجداول من ملفات PDF.

من المهم ملاحظة أن مكتبة pdfminer.six تدعم استخراج صفحات PDF كصور، لكن هذا يختلف عن استخراج الصور المضمنة في مستندات PDF التي لا تدعمها مكتبة pdfminer.six. ومع ذلك، لا يزال بإمكان المطورين الاعتماد عليها لتحليل ملفات PDF في Python لاستخراج النص لتلبية احتياجات تحليل البيانات الخاصة بهم.

منتجات مماثلة

 عربي