1. محصولات
  2.   تبدیل
  3.   Python
  4.   pdfminer.six
 
  

کتابخانه پایتون تبدیل PDF به HTML/XML

کتابخانه رایگان و منبع باز Python برای تبدیل اسناد PDF به HTML و XML.

pdfminer.six چیست؟

pdfminer.six یک کتابخانه رایگان و منبع باز پایتون است که می تواند برای تبدیل اسناد PDF به فرمت های دیگر استفاده شود.

در اینجا لیست مختصری از ویژگی های اصلی تبدیل PDF آن آمده است:

  • تبدیل PDF به HTML: اسناد PDF را با حفظ ساختار و طرح‌بندی سند به فرمت HTML تبدیل کنید.
  • تبدیل PDF به XML: فایل‌های PDF را به فرمت XML تبدیل کنید و همه جزئیات، از جمله فونت‌ها و عناصر دیگر را ثبت کنید.
GitHub

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با pdfminer.six

برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

سیستم عامل مک


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

پنجره ها


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

تبدیل PDF به HTML

همانطور که در قطعه کد زیر نشان داده شده است، می‌توانیم با استفاده از تابع exttract_text_to_fp کتابخانه pdfminer.six (با نوع خروجی تنظیم شده به html) یک سند PDF را به فرمت HTML تبدیل کنیم:

خروجی

تصویر زیر فایل HTML ایجاد شده با تبدیل سند PDF را نشان می دهد:

تبدیل PDF به XML

همچنین می‌توانیم با استفاده از همان تابع extract_text_to_fp یک سند PDF را به فرمت XML تبدیل کنیم (اما با نوع خروجی تنظیم شده به xml) که توسط کتابخانه ارائه شده است، همانطور که در قطعه کد زیر نشان داده شده است:

خروجی

تصویر زیر محتوای XML تبدیل شده از سند PDF را نشان می دهد:

نتیجه

به طور کلی، pdfminer.six از تبدیل اسناد PDF به فرمت XML بدون هیچ مشکلی پشتیبانی می کند، اما هنگام تلاش برای تبدیل PDF به HTML، قادر به انتقال محتوای متنی است اما اغلب طرح کلی را مختل می کند.

محصولات مشابه

 فارسی