کتابخانه تجزیه‌کننده PDF پایتون منبع باز

کتابخانه Python رایگان و منبع باز برای تجزیه PDF و استخراج متن با اطلاعات قالب‌بندی.

pdfminer.six چیست؟

Pdfminer.six یک کتابخانه و مجموعه ابزار منبع باز پایتون برای استخراج داده ها از اسناد PDF است. می توانید اسناد PDF را تجزیه کنید و متن، فهرست مطالب و محتویات برچسب گذاری شده و غیره را برای تجزیه و تحلیل داده ها از PDF استخراج کنید.

در اینجا لیست مختصری از ویژگی های تجزیه آن آورده شده است:

استخراج متن: محتوای متن را از اسناد PDF از جمله اطلاعات طرح‌بندی و قالب‌بندی مانند رنگ متن، فونت و مکان و غیره استخراج کنید.
استخراج اطلاعات قلم: اطلاعات مربوط به فونت های مورد استفاده در اسناد PDF را استخراج کنید.

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با pdfminer.six

برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

ویندوز


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

مهم است که توجه داشته باشید که کتابخانه pdfminer.six از استخراج صفحات PDF به عنوان تصویر پشتیبانی می کند، اما با استخراج تصاویر تعبیه شده در اسناد PDF که توسط pdfminer.six پشتیبانی نمی شود، متفاوت است. با این حال، توسعه‌دهندگان همچنان می‌توانند برای تجزیه فایل‌های PDF در پایتون برای استخراج متن برای نیازهای تجزیه و تحلیل داده‌های خود به آن اعتماد کنند.

کتابخانه تجزیه‌کننده PDF پایتون منبع باز

کتابخانه Python رایگان و منبع باز برای تجزیه PDF و استخراج متن با اطلاعات قالب‌بندی.

pdfminer.six چیست؟

آمار GitHub

شروع کار با pdfminer.six

لینوکس

MacOS

ویندوز

استخراج متن از سند PDF

خروجی

استخراج اطلاعات فونت از سند PDF

خروجی

نتیجه گیری

محصولات مشابه