کتابخانه پایتون تبدیل PDF به HTML/XML
کتابخانه رایگان و منبع باز Python برای تبدیل اسناد PDF به HTML و XML.
pdfminer.six چیست؟
pdfminer.six یک کتابخانه رایگان و متن باز پایتون است که می تواند برای تبدیل اسناد PDF به فرمت های دیگر استفاده شود.
در اینجا لیست مختصری از ویژگی های اصلی تبدیل PDF آن آمده است:
- تبدیل PDF به HTML: اسناد PDF را با حفظ ساختار و طرحبندی سند به فرمت HTML تبدیل کنید.
- تبدیل PDF به XML: فایلهای PDF را به فرمت XML تبدیل کنید و همه جزئیات، از جمله فونتها و عناصر دیگر را ثبت کنید.
شروع کار با pdfminer.six
برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.
لینوکس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ویندوز
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
تبدیل PDF به HTML
همانطور که در قطعه کد زیر نشان داده شده است، میتوانیم یک سند PDF را با استفاده از تابع extract_text_to_fp کتابخانه pdfminer.six (با نوع خروجی تنظیم شده به html) به فرمت HTML تبدیل کنیم:
خروجی
تصویر زیر فایل HTML ایجاد شده با تبدیل سند PDF را نشان می دهد:
تبدیل PDF به XML
همچنین میتوانیم با استفاده از همان تابع extract_text_to_fp یک سند PDF را به فرمت XML تبدیل کنیم (اما با نوع خروجی تنظیم شده به xml) که توسط کتابخانه ارائه شده است، همانطور که در قطعه کد زیر نشان داده شده است:
خروجی
تصویر زیر محتوای XML تبدیل شده از سند PDF را نشان می دهد:
نتیجه گیری
به طور کلی، pdfminer.six بدون هیچ مشکلی از تبدیل اسناد PDF به فرمت XML پشتیبانی می کند، اما هنگام تلاش برای تبدیل PDF به HTML، قادر به انتقال محتوای متن است اما اغلب طرح کلی را مختل می کند.