مكتبة محلل Python PDF مفتوحة المصدر

جرب مكتبة Python المجانية والمفتوحة المصدر لتحليل وقراءة واستخراج النصوص والصور والجداول والمحتويات الأخرى من مستندات PDF.

ما هو PyMuPDF؟

PyMuPDF، والمعروفة أيضًا باسم Fitz، هي مكتبة Python مفتوحة المصدر توفر مجموعة شاملة من الأدوات للعمل مع ملفات PDF. باستخدام PyMuPDF، يمكن للمستخدمين أداء مهام بكفاءة مثل فتح ملفات PDF، واستخراج النص والصور والجداول، ومعالجة خصائص الصفحة مثل التدوير والاقتصاص، وإنشاء مستندات PDF جديدة، وتحويل صفحات PDF إلى صور.

يدعم PyMuPDF العديد من الميزات المدرجة أدناه:

  • قراءة مستندات PDF: يستطيع PyMuPDF فتح مستندات PDF وقراءتها، مما يسمح لك بالوصول إلى النصوص والصور والمحتويات الأخرى بداخلها.
  • استخراج النص: يمكنك استخراج النص من مستندات PDF، بما في ذلك محتوى النص والخطوط ومعلومات التخطيط.
  • استخراج الصور: يمكنك استخراج الصور من مستندات PDF بتنسيقات مختلفة، مثل JPEG أو PNG.
  • استخراج الجدول: يمكنك أيضًا استخراج الجداول من مستندات PDF.

في هذه المراجعة، سيكون تركيزنا الأساسي على ميزات الاستخراج والتحليل للمكتبة. للحصول على تقييم متعمق لميزات التقسيم والدمج وإدارة الصفحات، يرجى النقر هنا.

GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الشروع في العمل مع PyMuPDF

تحتاج إلى إصدار Python 3.8.0 أو أعلى لتثبيت PyMuPDF واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت PyMuPDF على جهازك باستخدام pip والبيئة الافتراضية.

لينكس


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

ماك


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

شبابيك


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

استخراج النص من قوات الدفاع الشعبي

يمكنك استخدام مكتبة PyMuPDF في بايثون لاستخراج النص من مستند PDF وإجراء تحليل النص، مثل عد الكلمات، فقط باستخدام الوظائف المتوفرة في المكتبة، كما هو موضح في الكود أدناه:

انتاج

الصورة أدناه توضح النص المستخرج وعدد الكلمات في ملف PDF:

استخراج الصور من قوات الدفاع الشعبي

يمكننا استخدام مكتبة PyMuPDF لاستخراج الصور من مستند PDF في Python. يفتح مقتطف الكود الموجود أدناه ملف PDF المحدد، ويستخرج الصور من ملف PDF ويحفظها في دليل العمل الحالي:

انتاج

فيما يلي صورة PNG المستخرجة من مستند PDF

استخراج الجداول من PDF

يمكننا أيضًا استخدام مكتبة PyMuPDF لمعالجة مستند PDF واستخراج الجداول منه. تحقق أدناه من مقتطف الكود الذي يفتح ملف PDF المحدد ويستخرج الجداول من مستند PDF:

انتاج

توضح لقطة الشاشة أدناه الجدول المستخرج من مستند PDF:

إدراج نص في PDF

يوضح مقتطف كود Python أدناه استخدام مكتبة PyMuPDF لإدراج نص في ملف PDF وحفظ ملف PDF المعدل كـ text.pdf:

انتاج

يتم تمييز النص المدرج باستخدام الكود أعلاه في المربع الأحمر الموضح أدناه:

التعرف على نص PDF باستخدام التعرف الضوئي على الحروف مع PyMuPDF

We will perform OCR on the PDF file containing the following image:

انتاج

توضح الصورة أدناه النص المستخرج من الصورة الموجودة في ملف PDF المقدم:

خاتمة

باختصار، PyMuPDF هي أداة احترافية تتمتع ببعض نقاط القوة والضعف الواضحة. إنه أمر رائع لمهام مثل التعرف الضوئي على الحروف واستخراج النص مما يجعله ذا قيمة للتعامل مع النص في ملفات PDF.

ومع ذلك، فهي ليست جيدة جدًا في استخراج الجداول من ملفات PDF خاصة عندما تحتوي ملفات PDF على بنية معقدة أو عدد أكبر من الصفحات، وهو ما قد يكون عائقًا لبعض المستخدمين. كما أنه قد يتطلب مكتبات إضافية مثل ملفات بيانات لغة Pandas وTesseract OCR في مواقف معينة، مما يزيد من تعقيد استخدامه. على الرغم من هذه القيود، يظل PyMuPDF خيارًا قويًا للعمل مع النص في ملفات PDF.

منتجات مماثلة

 عربي