مكتبة بايثون لتحويل PDF إلى HTML/XML
مكتبة Python مجانية ومفتوحة المصدر لتحويل مستندات PDF إلى HTML وXML.
ما هو pdfminer.six؟
pdfminer.six هي مكتبة Python مجانية ومفتوحة المصدر والتي يمكن استخدامها لتحويل مستندات PDF إلى تنسيقات أخرى.
فيما يلي قائمة مختصرة بميزات تحويل PDF الرئيسية:
- تحويل PDF إلى HTML: قم بتحويل مستندات PDF إلى تنسيق HTML مع الحفاظ على بنية المستند وتخطيطه.
- تحويل PDF إلى XML: قم بتحويل ملفات PDF إلى تنسيق XML، مع التقاط كافة التفاصيل، بما في ذلك الخطوط والعناصر الأخرى.
الشروع في العمل مع pdfminer.six
تحتاج إلى إصدار Python 3.6.0 أو أعلى لتثبيت pypdf واستخدامه. لذا، قم أولاً بتثبيت Python ثم استخدم الأوامر أدناه لتثبيت pypdf على جهازك باستخدام pip والبيئة الافتراضية.
لينكس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
ماك
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
شبابيك
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
تحويل قوات الدفاع الشعبي إلى HTML
يمكننا تحويل مستند PDF إلى تنسيق HTML باستخدام وظيفة extract_text_to_fp الخاصة بمكتبة pdfminer.six (مع ضبط نوع الإخراج على html) التي توفرها المكتبة، كما هو موضح في مقتطف الكود أدناه:
انتاج
تعرض لقطة الشاشة التالية ملف HTML الذي تم إنشاؤه عن طريق تحويل مستند PDF:
تحويل قوات الدفاع الشعبي إلى XML
يمكننا أيضًا تحويل مستند PDF إلى تنسيق XML باستخدام نفس وظيفة extract_text_to_fp (ولكن مع ضبط نوع الإخراج على xml) التي توفرها المكتبة، كما هو موضح في مقتطف الكود أدناه:
انتاج
تعرض لقطة الشاشة التالية محتوى XML المحول من مستند PDF:
خاتمة
بشكل عام، يدعم pdfminer.six تحويل مستندات PDF إلى تنسيق XML دون أي مشاكل ولكن عند محاولة تحويل ملف PDF إلى HTML، فإنه يتمكن من نقل محتوى النص ولكنه غالبًا ما يعطل التخطيط العام.