تحويل PDF إلى HTML/XML مكتبة Python
مكتبة Python مجانية ومفتوحة المصدر لتحويل مستندات PDF إلى HTML و XML.
ما هو pdfminer.six؟
pdfminer.six هي مكتبة Python مجانية ومفتوحة المصدر يمكن استخدامها لتحويل مستندات PDF إلى تنسيقات أخرى.
فيما يلي قائمة مختصرة للميزات الرئيسية لتحويل ملفات PDF:
- تحويل PDF إلى HTML: تحويل مستندات PDF إلى تنسيق HTML مع الحفاظ على بنية المستند وتخطيطه.
- تحويل PDF إلى XML: تحويل ملفات PDF إلى تنسيق XML، والتقاط جميع التفاصيل، بما في ذلك الخطوط والعناصر الأخرى.
البدء باستخدام pdfminer.six
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت واستخدام pypdf. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip وvirtual Environment.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ماك
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
نوافذ
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
تحويل PDF إلى HTML
يمكننا تحويل مستند PDF إلى تنسيق HTML باستخدام وظيفة extract_text_to_fp الخاصة بمكتبة pdfminer.six (مع تعيين نوع الإخراج على html) التي توفرها المكتبة، كما هو موضح في مقتطف التعليمات البرمجية أدناه:
الناتج
تُظهر لقطة الشاشة التالية ملف HTML الذي تم إنشاؤه عن طريق تحويل مستند PDF:
تحويل PDF إلى XML
يمكننا أيضًا تحويل مستند PDF إلى تنسيق XML باستخدام نفس وظيفة extract_text_to_fp (ولكن مع تعيين نوع الإخراج على xml) التي توفرها المكتبة، كما هو موضح في مقتطف التعليمات البرمجية أدناه:
الناتج
تُظهر لقطة الشاشة التالية محتوى XML المُحوّل من مستند PDF:
خاتمة
بشكل عام، يدعم pdfminer.six تحويل مستندات PDF إلى تنسيق XML دون أي مشاكل، ولكن عند محاولة تحويل PDF إلى HTML، فإنه يتمكن من نقل محتوى النص ولكنه غالبًا ما يعطل التخطيط العام.