1. منتجات
  2.   محلل
  3.   Python
  4.   pdfminer.six
 
  

مكتبة محلل Python PDF مفتوحة المصدر

مكتبة Python مجانية ومفتوحة المصدر لتحليل ملفات PDF واستخراج النص باستخدام معلومات التنسيق.

ما هو pdfminer.six؟

Pdfminer.six هي مكتبة Python مفتوحة المصدر ومجموعة أدوات لاستخراج البيانات من مستندات PDF. يمكنك تحليل مستندات PDF واستخراج النص وجدول المحتويات والمحتويات ذات العلامات وما إلى ذلك من ملفات PDF لتحليل البيانات.

فيما يلي قائمة مختصرة بميزات التحليل الخاصة به:

  • استخراج النص: استخرج محتوى النص من مستندات PDF بما في ذلك معلومات التخطيط والتنسيق مثل لون النص والخط والموقع وما إلى ذلك.
  • استخراج معلومات الخط: استخرج معلومات حول الخطوط المستخدمة في مستندات PDF.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الشروع في العمل مع pdfminer.six

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ماك


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

شبابيك


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

استخراج النص من وثيقة PDF

يمكنك استخدام مكتبة pdfminer.six في Python لاستخراج نص من مستند PDF باستخدام وظيفة extract_text كما هو موضح في مقتطف الكود أدناه:

انتاج

توضح لقطة الشاشة التالية النص المستخرج من مستند PDF:

استخراج معلومات الخط من وثيقة PDF

يمكننا أيضًا استخراج المعلومات حول الخطوط المستخدمة في مستند PDF مثل اسم الخط وحجم الخط من خلال التكرار عبر عناصر التخطيط لكل صفحة في ملف PDF. على سبيل المثال، تحقق من مقتطف الشفرة أدناه:

انتاج

تعرض لقطة الشاشة التالية معلومات الخط المستخرجة من مستند PDF:

خاتمة

في الختام، يتمتع pdfminer.six بالقدرة على استخراج النصوص والمعلومات الأخرى من مستندات PDF ولكنه يفتقر إلى وظائف مثل استخراج الصور والجداول من ملفات PDF.

من المهم ملاحظة أن مكتبة pdfminer.six تدعم استخراج صفحات PDF كصور ولكنها تختلف عن استخراج الصور المضمنة في مستندات PDF التي لا يدعمها pdfminer.six. ومع ذلك، لا يزال بإمكان المطورين الاعتماد عليه لتحليل ملفات PDF في Python لاستخراج النص لتلبية احتياجات تحليل البيانات الخاصة بهم.

منتجات مماثلة

 عربي