کتابخانه تجزیه‌کننده PDF پایتون منبع باز

PDF را تجزیه کنید و متن، تصاویر و پیوست ها را از اسناد PDF با استفاده از کتابخانه رایگان Python استخراج کنید.

pypdf چیست؟

Pypdf یک کتابخانه با ارزش منبع باز پایتون است که به دلیل مهارت در عملیات های مختلف PDF شناخته شده است. این کتابخانه می تواند بسیاری از وظایف و عملیات مربوط به فایل های PDF را انجام دهد، با این حال، ما در این صفحه فقط بر روی ویژگی های تجزیه PDF آن تمرکز می کنیم.

ویژگی های قابل توجه تجزیه pypdf عبارتند از:

  • خواندن فایل‌های PDF: Pypdf به شما امکان می‌دهد فایل‌های PDF را باز و بخوانید/تجزیه کنید، و استخراج متن و سایر داده‌ها از اسناد PDF موجود را آسان می‌کند.
  • استخراج محتوا: می‌توانید متن، تصاویر و پیوست‌ها را براساس نیاز خود از اسناد PDF تجزیه و استخراج کنید.
GitHub

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با pypdf

برای نصب و استفاده از pypdf به نسخه 3.6.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب pypdf بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python3 -m venv venv
source venv/bin/activate
pip install pypdf

سیستم عامل مک


python -m venv venv
source venv/bin/activate
pip install pypdf

پنجره ها


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

استخراج متن از PDF

Please check below code snippet for example:

خروجی

تصویر زیر متن استخراج شده از فایل PDF را نشان می دهد

استخراج تصاویر از PDF

ما می توانیم از کتابخانه pypdf برای استخراج تصاویر از یک سند PDF استفاده کنیم. برای استخراج تصاویر به یک کتابخانه اضافی به نام pillow نیاز دارد. در هر صفحه تکرار می شود، تصاویر را شناسایی می کند، و آنها را به عنوان فایل های تصویری جداگانه ذخیره می کند و نام اصلی آنها را حفظ می کند. لطفاً قطعه کد زیر را برای مثال بررسی کنید:

خروجی

متن درج شده با استفاده از کد بالا در کادر قرمز رنگ زیر مشخص شده است

ضمیمه ها را از PDF استخراج کنید

کتابخانه pypdf امکان استخراج و ذخیره پیوست ها را از یک سند PDF فراهم می کند. از طریق پیوست ها و محتویات آنها تکرار می شود و آنها را در فایل های جداگانه ذخیره می کند. لطفاً قطعه کد زیر را برای مثال بررسی کنید:

نتیجه

در نتیجه، pypdf به عنوان یک کتابخانه همه کاره Python برای استخراج ویژگی ها از اسناد PDF متمایز است. قابلیت‌های قوی برای تجزیه متن، تصاویر و پیوست‌ها را ارائه می‌دهد و آن را به ابزاری ارزشمند برای استخراج، تجزیه و تحلیل و مدیریت اسناد تبدیل می‌کند.

با این حال، مهم است که توجه داشته باشید که pypdf ممکن است در هنگام استخراج متن مشکلاتی را ایجاد کند، مانند فاصله های اضافی بین کلمات و کاراکترها، که می تواند بر دقت محتوای استخراج شده تأثیر بگذارد. علی‌رغم این محدودیت، pypdf یک دارایی ارزشمند برای تجزیه فایل‌های PDF باقی می‌ماند، به خصوص در سناریوهایی که قالب‌بندی دقیق متن نگرانی اصلی نیست.

محصولات مشابه

 فارسی