1. منتجات
  2.   تحويل
  3.   Python
  4.   pdfminer.six
 
  

مكتبة بايثون لتحويل PDF إلى HTML/XML

مكتبة Python مجانية ومفتوحة المصدر لتحويل مستندات PDF إلى HTML وXML.

ما هو pdfminer.six؟

pdfminer.six هي مكتبة Python مجانية ومفتوحة المصدر والتي يمكن استخدامها لتحويل مستندات PDF إلى تنسيقات أخرى.

فيما يلي قائمة مختصرة بميزات تحويل PDF الرئيسية:

  • تحويل PDF إلى HTML: قم بتحويل مستندات PDF إلى تنسيق HTML مع الحفاظ على بنية المستند وتخطيطه.
  • تحويل PDF إلى XML: قم بتحويل ملفات PDF إلى تنسيق XML، مع التقاط كافة التفاصيل، بما في ذلك الخطوط والعناصر الأخرى.
GitHub

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

الشروع في العمل مع pdfminer.six

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ماك


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

شبابيك


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

تحويل قوات الدفاع الشعبي إلى HTML

يمكننا تحويل مستند PDF إلى تنسيق HTML باستخدام وظيفة extract_text_to_fp الخاصة بمكتبة pdfminer.six (مع ضبط نوع الإخراج على html) التي توفرها المكتبة، كما هو موضح في مقتطف الكود أدناه:

انتاج

تعرض لقطة الشاشة التالية ملف HTML الذي تم إنشاؤه عن طريق تحويل مستند PDF:

تحويل قوات الدفاع الشعبي إلى XML

يمكننا أيضًا تحويل مستند PDF إلى تنسيق XML باستخدام نفس وظيفة extract_text_to_fp (ولكن مع ضبط نوع الإخراج على xml) التي توفرها المكتبة، كما هو موضح في مقتطف الكود أدناه:

انتاج

تعرض لقطة الشاشة التالية محتوى XML المحول من مستند PDF:

خاتمة

بشكل عام، يدعم pdfminer.six تحويل مستندات PDF إلى تنسيق XML دون أي مشاكل ولكن عند محاولة تحويل ملف PDF إلى HTML، فإنه يتمكن من نقل محتوى النص ولكنه غالبًا ما يعطل التخطيط العام.

منتجات مماثلة

 عربي