کتابخانه تجزیهکننده PDF پایتون منبع باز
کتابخانه Python رایگان و منبع باز برای تجزیه PDF و استخراج متن با اطلاعات قالببندی.
pdfminer.six چیست؟
Pdfminer.six یک کتابخانه و مجموعه ابزار منبع باز پایتون برای استخراج داده ها از اسناد PDF است. می توانید اسناد PDF را تجزیه کنید و متن، فهرست مطالب و مطالب برچسب گذاری شده و غیره را برای تجزیه و تحلیل داده ها از PDF استخراج کنید.
در اینجا لیست مختصری از ویژگی های تجزیه آن آورده شده است:
- استخراج متن: محتوای متن را از اسناد PDF از جمله اطلاعات طرحبندی و قالببندی مانند رنگ متن، فونت و مکان و غیره استخراج کنید.
- استخراج اطلاعات قلم: اطلاعات مربوط به فونت های مورد استفاده در اسناد PDF را استخراج کنید.
شروع کار با pdfminer.six
برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.
لینوکس
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
سیستم عامل مک
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
پنجره ها
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
استخراج متن از سند PDF
میتوانید از کتابخانه pdfminer.six در پایتون برای استخراج متن از یک سند PDF با استفاده از تابع extract_text همانطور که در قطعه کد زیر نشان داده شده است استفاده کنید:
خروجی
تصویر زیر متن استخراج شده از سند PDF را نشان می دهد:
استخراج اطلاعات فونت از سند PDF
همچنین میتوانیم اطلاعات مربوط به فونتهای مورد استفاده در سند PDF مانند نام فونت و اندازه فونت را با تکرار عناصر طرحبندی هر صفحه در PDF استخراج کنیم. به عنوان مثال، قطعه کد زیر را بررسی کنید:
خروجی
تصویر زیر اطلاعات فونت استخراج شده از سند PDF را نشان می دهد:
نتیجه
در نتیجه، pdfminer.six توانایی استخراج متن و سایر اطلاعات از اسناد PDF را دارد، اما فاقد قابلیتهایی مانند استخراج تصاویر و جداول از فایلهای PDF است.
مهم است که توجه داشته باشید که کتابخانه pdfminer.six از استخراج صفحات PDF به عنوان تصویر پشتیبانی می کند، اما با استخراج تصاویر تعبیه شده در اسناد PDF که توسط pdfminer.six پشتیبانی نمی شود، متفاوت است. با این حال، توسعهدهندگان همچنان میتوانند برای تجزیه فایلهای PDF در پایتون برای استخراج متن برای نیازهای تجزیه و تحلیل دادههای خود به آن اعتماد کنند.