کتابخانه تجزیه‌کننده PDF پایتون منبع باز

این کتابخانه رایگان و منبع باز Python را برای تجزیه، خواندن و استخراج متن، تصاویر، جداول و سایر محتواها از اسناد PDF امتحان کنید.

PyMuPDF چیست؟

PyMuPDF، همچنین به عنوان Fitz شناخته می شود، یک کتابخانه پایتون منبع باز است که مجموعه ای جامع از ابزارها را برای کار با فایل های PDF ارائه می دهد. با PyMuPDF، کاربران می توانند کارهایی مانند باز کردن PDF، استخراج متن، تصاویر و جداول، دستکاری ویژگی های صفحه مانند چرخش و برش، ایجاد اسناد PDF جدید و تبدیل صفحات PDF به تصاویر را به طور موثر انجام دهند.

PyMuPDF از چندین ویژگی پشتیبانی می کند که در زیر ذکر شده است:

  • خواندن سند PDF: PyMuPDF می‌تواند اسناد PDF را باز کرده و بخواند و به شما امکان می‌دهد به متن، تصاویر و سایر محتوای موجود در آنها دسترسی داشته باشید.
  • استخراج متن: می‌توانید متن را از اسناد PDF، از جمله محتوای متن، فونت‌ها و اطلاعات طرح‌بندی استخراج کنید.
  • استخراج تصویر: می‌توانید تصاویر را از اسناد PDF در قالب‌های مختلف، مانند JPEG یا PNG استخراج کنید.
  • استخراج جدول: همچنین می‌توانید جداول را از اسناد PDF استخراج کنید.

در این بررسی، تمرکز اصلی ما بر روی ویژگی‌های استخراج و تجزیه کتابخانه خواهد بود. برای ارزیابی عمیق ویژگی‌های تقسیم، ادغام و مدیریت صفحه، لطفاً اینجا را کلیک کنید.

GitHub

آمار GitHub

نام:
زبان:
ستاره ها:
چنگال:
مجوز:
آخرین به روز رسانی مخزن در

شروع کار با PyMuPDF

برای نصب و استفاده از PyMuPDF به نسخه 3.8.0 یا بالاتر پایتون نیاز دارید. بنابراین، ابتدا Python را نصب کنید و سپس از دستورات زیر برای نصب PyMuPDF بر روی دستگاه خود با استفاده از pip و محیط مجازی.

لینوکس


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

سیستم عامل مک


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

پنجره ها


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

استخراج متن از PDF

شما می توانید از کتابخانه PyMuPDF در پایتون برای استخراج متن از یک سند PDF و انجام تجزیه و تحلیل متن، مانند شمارش کلمات، فقط با استفاده از توابع ارائه شده در کتابخانه، همانطور که در کد زیر نشان داده شده است، استفاده کنید:

خروجی

تصویر زیر متن استخراج شده و تعداد کلمات فایل PDF را نشان می دهد:

استخراج تصاویر از PDF

ما می توانیم از کتابخانه PyMuPDF برای استخراج تصاویر از یک سند PDF در پایتون استفاده کنیم. قطعه کد زیر فایل PDF مشخص شده را باز می کند، تصاویر را از PDF استخراج می کند و آنها را در فهرست کاری فعلی ذخیره می کند:

خروجی

در زیر تصویر PNG استخراج شده از سند PDF است

جداول را از PDF استخراج کنید

همچنین می توانیم از کتابخانه PyMuPDF برای پردازش یک سند PDF و استخراج جداول از آن استفاده کنیم. قطعه کد زیر را بررسی کنید که فایل PDF مشخص شده را باز می کند و جداول را از سند PDF استخراج می کند:

خروجی

تصویر زیر جدول استخراج شده از سند PDF را نشان می دهد:

درج متن در PDF

در زیر قطعه کد Python استفاده از کتابخانه PyMuPDF برای درج متن در فایل PDF و ذخیره PDF اصلاح شده به عنوان text.pdf نشان داده شده است:

خروجی

متن درج شده با استفاده از کد بالا در کادر قرمز رنگ زیر مشخص شده است:

تشخیص متن PDF با استفاده از OCR با PyMuPDF

We will perform OCR on the PDF file containing the following image:

خروجی

تصویر زیر متن استخراج شده از تصویر موجود در فایل PDF ارائه شده را نشان می دهد:

نتیجه

به طور خلاصه، PyMuPDF یک ابزار حرفه ای با برخی نقاط قوت و ضعف واضح است. این برای کارهایی مانند OCR و استخراج متن عالی است که آن را برای مدیریت متن در فایل های PDF ارزشمند می کند.

با این حال، در استخراج جداول از PDF به خصوص زمانی که PDF ها ساختار پیچیده یا تعداد صفحات بیشتری دارند، چندان خوب نیست، که ممکن است برای برخی از کاربران یک اشکال باشد. همچنین، ممکن است در شرایط خاص به کتابخانه‌های اضافی مانند Pandas و Tesseract OCR نیاز داشته باشد که به پیچیدگی استفاده از آن می‌افزاید. با وجود این محدودیت ها، PyMuPDF یک انتخاب قوی برای کار با متن در فایل های PDF است.

محصولات مشابه

 فارسی