مكتبة محلل Python PDF مفتوحة المصدر
مكتبة Python مجانية ومفتوحة المصدر لتحليل ملفات PDF واستخراج النص باستخدام معلومات التنسيق.
ما هو pdfminer.six؟
Pdfminer.six هي مكتبة Python مفتوحة المصدر ومجموعة أدوات لاستخراج البيانات من مستندات PDF. يمكنك تحليل مستندات PDF واستخراج النص وجدول المحتويات والمحتويات ذات العلامات وما إلى ذلك من ملفات PDF لتحليل البيانات.
فيما يلي قائمة مختصرة بميزات التحليل الخاصة به:
- استخراج النص: استخرج محتوى النص من مستندات PDF بما في ذلك معلومات التخطيط والتنسيق مثل لون النص والخط والموقع وما إلى ذلك.
- استخراج معلومات الخط: استخرج معلومات حول الخطوط المستخدمة في مستندات PDF.
الشروع في العمل مع pdfminer.six
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ماك
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
شبابيك
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
استخراج النص من وثيقة PDF
يمكنك استخدام مكتبة pdfminer.six في Python لاستخراج نص من مستند PDF باستخدام وظيفة extract_text كما هو موضح في مقتطف الكود أدناه:
انتاج
توضح لقطة الشاشة التالية النص المستخرج من مستند PDF:
استخراج معلومات الخط من وثيقة PDF
يمكننا أيضًا استخراج المعلومات حول الخطوط المستخدمة في مستند PDF مثل اسم الخط وحجم الخط من خلال التكرار عبر عناصر التخطيط لكل صفحة في ملف PDF. على سبيل المثال، تحقق من مقتطف الشفرة أدناه:
انتاج
تعرض لقطة الشاشة التالية معلومات الخط المستخرجة من مستند PDF:
خاتمة
في الختام، يتمتع pdfminer.six بالقدرة على استخراج النصوص والمعلومات الأخرى من مستندات PDF ولكنه يفتقر إلى وظائف مثل استخراج الصور والجداول من ملفات PDF.
من المهم ملاحظة أن مكتبة pdfminer.six تدعم استخراج صفحات PDF كصور ولكنها تختلف عن استخراج الصور المضمنة في مستندات PDF التي لا يدعمها pdfminer.six. ومع ذلك، لا يزال بإمكان المطورين الاعتماد عليه لتحليل ملفات PDF في Python لاستخراج النص لتلبية احتياجات تحليل البيانات الخاصة بهم.