تحويل PDF إلى HTML/XML مكتبة Python

مكتبة Python مجانية ومفتوحة المصدر لتحويل مستندات PDF إلى HTML و XML.

ما هو pdfminer.six؟

pdfminer.six هي مكتبة Python مجانية ومفتوحة المصدر يمكن استخدامها لتحويل مستندات PDF إلى تنسيقات أخرى.

فيما يلي قائمة مختصرة للميزات الرئيسية لتحويل ملفات PDF:

تحويل PDF إلى HTML: تحويل مستندات PDF إلى تنسيق HTML مع الحفاظ على بنية المستند وتخطيطه.
تحويل PDF إلى XML: تحويل ملفات PDF إلى تنسيق XML، والتقاط جميع التفاصيل، بما في ذلك الخطوط والعناصر الأخرى.

إحصائيات جيثب

اسم:
لغة:
النجوم:
الشوك:
رخصة:
تم تحديث المستودع آخر مرة في

البدء باستخدام pdfminer.six

تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.

لينكس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

ماك


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

نوافذ


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

تحويل PDF إلى HTML

يمكننا تحويل مستند PDF إلى تنسيق HTML باستخدام وظيفة extract_text_to_fp الخاصة بمكتبة pdfminer.six (مع تعيين نوع الإخراج على html) التي توفرها المكتبة، كما هو موضح في مقتطف التعليمات البرمجية أدناه:

الناتج

تُظهر لقطة الشاشة التالية ملف HTML الذي تم إنشاؤه عن طريق تحويل مستند PDF:

تحويل PDF إلى XML

يمكننا أيضًا تحويل مستند PDF إلى تنسيق XML باستخدام نفس وظيفة extract_text_to_fp (ولكن مع تعيين نوع الإخراج على xml) التي توفرها المكتبة، كما هو موضح في مقتطف التعليمات البرمجية أدناه:

الناتج

تُظهر لقطة الشاشة التالية محتوى XML المُحوّل من مستند PDF:

خاتمة

بشكل عام، يدعم pdfminer.six تحويل مستندات PDF إلى تنسيق XML دون أي مشاكل، ولكن عند محاولة تحويل PDF إلى HTML، فإنه يتمكن من نقل محتوى النص ولكنه غالبًا ما يعطل التخطيط العام.

تحويل PDF إلى HTML/XML مكتبة Python

مكتبة Python مجانية ومفتوحة المصدر لتحويل مستندات PDF إلى HTML و XML.

ما هو pdfminer.six؟

إحصائيات جيثب

البدء باستخدام pdfminer.six

لينكس

ماك

نوافذ

تحويل PDF إلى HTML

الناتج

تحويل PDF إلى XML

الناتج

خاتمة

منتجات مماثلة