کتابخانه تجزیه‌کننده PDF پایتون منبع باز

کتابخانه Python رایگان و منبع باز برای تجزیه PDF و استخراج متن با اطلاعات قالب‌بندی.

pdfminer.six چیست؟

Pdfminer.six یک کتابخانه و مجموعه ابزار منبع باز پایتون برای استخراج داده ها از اسناد PDF است. می توانید اسناد PDF را تجزیه کنید و متن، فهرست مطالب و مطالب برچسب گذاری شده و غیره را برای تجزیه و تحلیل داده ها از PDF استخراج کنید.

در اینجا لیست مختصری از ویژگی های تجزیه آن آورده شده است:

  • استخراج متن: محتوای متن را از اسناد PDF از جمله اطلاعات طرح‌بندی و قالب‌بندی مانند رنگ متن، فونت و مکان و غیره استخراج کنید.
  • استخراج اطلاعات قلم: اطلاعات مربوط به فونت های مورد استفاده در اسناد PDF را استخراج کنید.
GitHub

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با pdfminer.six

برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

سیستم عامل مک


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

پنجره ها


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

استخراج متن از سند PDF

می‌توانید از کتابخانه pdfminer.six در پایتون برای استخراج متن از یک سند PDF با استفاده از تابع extract_text همانطور که در قطعه کد زیر نشان داده شده است استفاده کنید:

خروجی

تصویر زیر متن استخراج شده از سند PDF را نشان می دهد:

استخراج اطلاعات فونت از سند PDF

همچنین می‌توانیم اطلاعات مربوط به فونت‌های مورد استفاده در سند PDF مانند نام فونت و اندازه فونت را با تکرار عناصر طرح‌بندی هر صفحه در PDF استخراج کنیم. به عنوان مثال، قطعه کد زیر را بررسی کنید:

خروجی

تصویر زیر اطلاعات فونت استخراج شده از سند PDF را نشان می دهد:

نتیجه

در نتیجه، pdfminer.six توانایی استخراج متن و سایر اطلاعات از اسناد PDF را دارد، اما فاقد قابلیت‌هایی مانند استخراج تصاویر و جداول از فایل‌های PDF است.

مهم است که توجه داشته باشید که کتابخانه pdfminer.six از استخراج صفحات PDF به عنوان تصویر پشتیبانی می کند، اما با استخراج تصاویر تعبیه شده در اسناد PDF که توسط pdfminer.six پشتیبانی نمی شود، متفاوت است. با این حال، توسعه‌دهندگان همچنان می‌توانند برای تجزیه فایل‌های PDF در پایتون برای استخراج متن برای نیازهای تجزیه و تحلیل داده‌های خود به آن اعتماد کنند.

محصولات مشابه

 فارسی