کتابخانه تجزیهکننده PDF پایتون منبع باز
PDF را تجزیه کنید و متن، تصاویر و پیوست ها را از اسناد PDF با استفاده از کتابخانه رایگان Python استخراج کنید.
pypdf چیست؟
Pypdf یک کتابخانه با ارزش منبع باز پایتون است که به دلیل مهارت در عملیات های مختلف PDF شناخته شده است. این کتابخانه می تواند بسیاری از وظایف و عملیات مربوط به فایل های PDF را انجام دهد، با این حال، ما در این صفحه فقط بر روی ویژگی های تجزیه PDF آن تمرکز می کنیم.
ویژگی های قابل توجه تجزیه pypdf عبارتند از:
- خواندن فایلهای PDF: Pypdf به شما امکان میدهد فایلهای PDF را باز و بخوانید/تجزیه کنید، و استخراج متن و سایر دادهها از اسناد PDF موجود را آسان میکند.
- استخراج محتوا: میتوانید متن، تصاویر و پیوستها را براساس نیاز خود از اسناد PDF تجزیه و استخراج کنید.
شروع کار با pypdf
برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.
لینوکس
python3 -m venv venv
source venv/bin/activate
pip install pypdf
سیستم عامل مک
python -m venv venv
source venv/bin/activate
pip install pypdf
پنجره ها
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
استخراج متن از PDF
Please check below code snippet for example:خروجی
تصویر زیر متن استخراج شده از فایل PDF را نشان می دهد
استخراج تصاویر از PDF
ما می توانیم از کتابخانه pypdf برای استخراج تصاویر از یک سند PDF استفاده کنیم. برای استخراج تصاویر به یک کتابخانه اضافی به نام pillow نیاز دارد. در هر صفحه تکرار می شود، تصاویر را شناسایی می کند، و آنها را به عنوان فایل های تصویری جداگانه ذخیره می کند و نام اصلی آنها را حفظ می کند. لطفاً قطعه کد زیر را برای مثال بررسی کنید:
خروجی
متن درج شده با استفاده از کد بالا در کادر قرمز رنگ زیر مشخص شده است
ضمیمه ها را از PDF استخراج کنید
کتابخانه pypdf امکان استخراج و ذخیره پیوست ها را از یک سند PDF فراهم می کند. از طریق پیوست ها و محتویات آنها تکرار می شود و آنها را در فایل های جداگانه ذخیره می کند. لطفاً قطعه کد زیر را برای مثال بررسی کنید:
نتیجه
در نتیجه، pypdf به عنوان یک کتابخانه همه کاره Python برای استخراج ویژگی ها از اسناد PDF متمایز است. قابلیتهای قوی برای تجزیه متن، تصاویر و پیوستها را ارائه میدهد و آن را به ابزاری ارزشمند برای استخراج، تجزیه و تحلیل و مدیریت اسناد تبدیل میکند.
با این حال، مهم است که توجه داشته باشید که pypdf ممکن است در هنگام استخراج متن مشکلاتی را ایجاد کند، مانند فاصله های اضافی بین کلمات و کاراکترها، که می تواند بر دقت محتوای استخراج شده تأثیر بگذارد. علیرغم این محدودیت، pypdf یک دارایی ارزشمند برای تجزیه فایلهای PDF باقی میماند، به خصوص در سناریوهایی که قالببندی دقیق متن نگرانی اصلی نیست.