کتابخانه تجزیهکننده PDF پایتون منبع باز
این کتابخانه رایگان و منبع باز Python را برای تجزیه، خواندن و استخراج متن، تصاویر، جداول و سایر محتواها از اسناد PDF امتحان کنید.
PyMuPDF چیست؟
PyMuPDF، همچنین به عنوان Fitz شناخته می شود، یک کتابخانه پایتون منبع باز است که مجموعه ای جامع از ابزارها را برای کار با فایل های PDF ارائه می دهد. با PyMuPDF، کاربران می توانند کارهایی مانند باز کردن PDF، استخراج متن، تصاویر و جداول، دستکاری ویژگی های صفحه مانند چرخش و برش، ایجاد اسناد PDF جدید و تبدیل صفحات PDF به تصاویر را به طور موثر انجام دهند.
PyMuPDF از چندین ویژگی پشتیبانی می کند که در زیر ذکر شده است:
- خواندن سند PDF: PyMuPDF میتواند اسناد PDF را باز کرده و بخواند و به شما امکان میدهد به متن، تصاویر و سایر محتوای موجود در آنها دسترسی داشته باشید.
- استخراج متن: میتوانید متن را از اسناد PDF، از جمله محتوای متن، فونتها و اطلاعات طرحبندی استخراج کنید.
- استخراج تصویر: میتوانید تصاویر را از اسناد PDF در قالبهای مختلف، مانند JPEG یا PNG استخراج کنید.
- استخراج جدول: همچنین میتوانید جداول را از اسناد PDF استخراج کنید.
در این بررسی، تمرکز اصلی ما بر روی ویژگیهای استخراج و تجزیه کتابخانه خواهد بود. برای ارزیابی عمیق ویژگیهای تقسیم، ادغام و مدیریت صفحه، لطفاً اینجا را کلیک کنید.
شروع کار با PyMuPDF
برای نصب و استفاده از PyMuPDF به نسخه 3.8.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب PyMuPDF بر روی دستگاه خود با استفاده از pip و محیط مجازی.
لینوکس
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
سیستم عامل مک
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
پنجره ها
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
استخراج متن از PDF
شما می توانید از کتابخانه PyMuPDF در پایتون برای استخراج متن از یک سند PDF و انجام تجزیه و تحلیل متن، مانند شمارش کلمات، فقط با استفاده از توابع ارائه شده در کتابخانه، همانطور که در کد زیر نشان داده شده است، استفاده کنید:
خروجی
تصویر زیر متن استخراج شده و تعداد کلمات فایل PDF را نشان می دهد:
استخراج تصاویر از PDF
ما می توانیم از کتابخانه PyMuPDF برای استخراج تصاویر از یک سند PDF در پایتون استفاده کنیم. قطعه کد زیر فایل PDF مشخص شده را باز می کند، تصاویر را از PDF استخراج می کند و آنها را در فهرست کاری فعلی ذخیره می کند:
خروجی
در زیر تصویر PNG استخراج شده از سند PDF است
جداول را از PDF استخراج کنید
همچنین می توانیم از کتابخانه PyMuPDF برای پردازش یک سند PDF و استخراج جداول از آن استفاده کنیم. قطعه کد زیر را بررسی کنید که فایل PDF مشخص شده را باز می کند و جداول را از سند PDF استخراج می کند:
خروجی
تصویر زیر جدول استخراج شده از سند PDF را نشان می دهد:
درج متن در PDF
در زیر قطعه کد Python استفاده از کتابخانه PyMuPDF برای درج متن در فایل PDF و ذخیره PDF اصلاح شده به عنوان text.pdf نشان داده شده است:
خروجی
متن درج شده با استفاده از کد بالا در کادر قرمز رنگ زیر مشخص شده است:
تشخیص متن PDF با استفاده از OCR با PyMuPDF
We will perform OCR on the PDF file containing the following image:خروجی
تصویر زیر متن استخراج شده از تصویر موجود در فایل PDF ارائه شده را نشان می دهد:
نتیجه
به طور خلاصه، PyMuPDF یک ابزار حرفه ای با برخی نقاط قوت و ضعف واضح است. این برای کارهایی مانند OCR و استخراج متن عالی است که آن را برای مدیریت متن در فایل های PDF ارزشمند می کند.
با این حال، در استخراج جداول از PDF به خصوص زمانی که PDF ها ساختار پیچیده یا تعداد صفحات بیشتری دارند، چندان خوب نیست، که ممکن است برای برخی از کاربران یک اشکال باشد. همچنین، ممکن است در شرایط خاص به کتابخانههای اضافی مانند Pandas و Tesseract OCR نیاز داشته باشد که به پیچیدگی استفاده از آن میافزاید. با وجود این محدودیت ها، PyMuPDF یک انتخاب قوی برای کار با متن در فایل های PDF است.