ספריית מנתח PDF בקוד פתוח של Python

נסה את ספריית Python החינמית והפתוחה הזו כדי לנתח, לקרוא ולחלץ טקסט, תמונות, טבלאות ותוכן אחר ממסמכי PDF.

מה זה PyMuPDF?

PyMuPDF, הידועה גם בשם Fitz, היא ספריית Python בקוד פתוח המספקת סט מקיף של כלים לעבודה עם קבצי PDF. עם PyMuPDF, משתמשים יכולים לבצע ביעילות משימות כמו פתיחת קובצי PDF, חילוץ טקסט, תמונות וטבלאות, מניפולציה של מאפייני עמוד כמו סיבוב וחיתוך, יצירת מסמכי PDF חדשים והמרת דפי PDF לתמונות.

PyMuPDF תומך במספר תכונות המפורטות להלן:

  • קריאת מסמכי PDF: PyMuPDF יכולה לפתוח ולקרוא מסמכי PDF, מה שמאפשר לך לגשת לטקסט, לתמונות ולתוכן אחר שבתוכם.
  • חילוץ טקסט: אתה יכול לחלץ טקסט ממסמכי PDF, כולל תוכן טקסט, גופנים ומידע פריסה.
  • חילוץ תמונה: אתה יכול לחלץ תמונות ממסמכי PDF בפורמטים שונים, כגון JPEG או PNG.
  • חילוץ טבלאות: ניתן גם לחלץ טבלאות ממסמכי PDF.

בסקירה זו, ההתמקדות העיקרית שלנו תהיה בתכונות החילוץ והניתוח של הספרייה. להערכה מעמיקה של פיצול, מיזוג ותכונות ניהול דפים, אנא לחץ כאן.

GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם PyMuPDF

אתה צריך Python גרסה 3.8.0 ומעלה כדי להתקין ולהשתמש ב-PyMuPDF. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין PyMuPDF במחשב שלך באמצעות pip וסביבה וירטואלית א>.

לינוקס


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

חלונות


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

חלץ טקסט מ-PDF

אתה יכול להשתמש בספריית PyMuPDF ב-Python כדי לחלץ טקסט ממסמך PDF ולבצע ניתוח טקסט, כגון ספירת מילים, רק על ידי שימוש בפונקציות הניתנות בספרייה, כפי שמוצג בקוד שלהלן:

תְפוּקָה

התמונה למטה מציגה את הטקסט שחולץ ואת מספר המילים בקובץ ה-PDF:

חלץ תמונות מ-PDF

אנו יכולים להשתמש בספריית PyMuPDF כדי לחלץ תמונות ממסמך PDF ב- Python. קטע הקוד שלהלן פותח את קובץ ה-PDF שצוין, מחלץ תמונות מה-PDF ושומר אותן בספריית העבודה הנוכחית:

תְפוּקָה

להלן תמונת PNG שחולצה ממסמך ה-PDF

חלץ טבלאות מ-PDF

אנחנו יכולים גם להשתמש בספריית PyMuPDF כדי לעבד מסמך PDF ולחלץ טבלאות ממנו. סמן למטה את קטע הקוד שפותח את קובץ ה-PDF שצוין ומחלץ טבלאות ממסמך ה-PDF:

תְפוּקָה

צילום המסך למטה מציג את הטבלה שחולצה ממסמך ה-PDF:

הוסף טקסט ל-PDF

להלן קטע הקוד של Python מדגים את השימוש בספריית PyMuPDF להוספת טקסט לקובץ PDF ושמירת ה-PDF שהשתנה כtext.pdf:

תְפוּקָה

הטקסט שהוכנס באמצעות הקוד לעיל מודגש בתיבה האדומה המפורטת להלן:

זיהוי טקסט PDF באמצעות OCR עם PyMuPDF

We will perform OCR on the PDF file containing the following image:

תְפוּקָה

התמונה למטה מציגה את הטקסט שחולץ מהתמונה הקיימת בקובץ ה-PDF שסופק:

מַסְקָנָה

לסיכום, PyMuPDF הוא כלי מקצועי עם כמה חוזקות וחולשות ברורות. זה נהדר עבור משימות כמו OCR וחילוץ טקסט, מה שהופך אותו לבעל ערך לטיפול בטקסט בקובצי PDF.

עם זאת, זה לא כל כך טוב בחילוץ טבלאות מקובצי PDF במיוחד כאשר לקובצי PDF יש מבנה מורכב או מספר עמודים יותר, מה שעשוי להיות חיסרון עבור משתמשים מסוימים. כמו כן, הוא עשוי לדרוש ספריות נוספות כמו Pandas ו-Tesseract OCR קבצי נתונים בשפת נתונים במצבים מסוימים, מה שמוסיף מורכבות לשימוש בו. למרות מגבלות אלו, PyMuPDF נותרה בחירה חזקה לעבודה עם טקסט בקובצי PDF.

מוצרים דומים

 Hebrew