ספריית מנתח PDF בקוד פתוח של Python

נתח PDF וחלץ טקסט, תמונות וקבצים מצורפים ממסמכי PDF באמצעות ספריית Python החינמית.

מה זה pypdf?

Pypdf היא ספריית Python בעלת ערך פתוח, הידועה בבקיאותה בפעולות PDF שונות. ספריה זו יכולה להתמודד עם משימות ופעולות רבות הקשורות לקובצי PDF אולם, בדף זה נתמקד רק בתכונות ניתוח ה-PDF שלה.

תכונות הניתוח הבולטות של pypdf כוללות:

  • קריאת קובצי PDF: Pypdf מאפשרת לך לפתוח ולקרוא/לנתח קובצי PDF, מה שמקל על חילוץ טקסט ונתונים אחרים ממסמכי PDF קיימים.
  • חילוץ תוכן: אתה יכול לנתח ולחלץ טקסט, תמונות וקבצים מצורפים ממסמכי PDF לפי הדרישה שלך.
GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם pypdf

אתה צריך Python גרסה 3.6.0 ומעלה כדי להתקין ולהשתמש ב-pypdf. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין pypdf במחשב שלך באמצעות pip וסביבה וירטואלית.

לינוקס


python3 -m venv venv
source venv/bin/activate
pip install pypdf

MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

חלונות


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

חלץ טקסט מ-PDF

Please check below code snippet for example:

תְפוּקָה

התמונה למטה מציגה את הטקסט שחולץ מקובץ ה-PDF

חלץ תמונות מ-PDF

אנו יכולים להשתמש בספריית pydf כדי לחלץ תמונות ממסמך PDF. זה דורש ספרייה נוספת בשם כרית כדי לחלץ תמונות. זה עובר דרך כל עמוד, מזהה תמונות ושומר אותן כקובצי תמונה נפרדים, תוך שמירה על השמות המקוריים שלהן. אנא בדוק את קטע הקוד למטה לדוגמה:

תְפוּקָה

הטקסט שהוכנס באמצעות הקוד לעיל מודגש בתיבה האדומה המפורטת למטה

חלץ קבצים מצורפים מ-PDF

ספריית pypdf מאפשרת לחלץ ולשמור קבצים מצורפים ממסמך PDF. זה חוזר על הקבצים המצורפים והתכנים שלהם ושומר אותם בקבצים נפרדים. אנא בדוק את קטע הקוד למטה לדוגמה:

סיכום

לסיכום, pypdf בולט כספריית Python רב-תכליתית לחילוץ תכונות ממסמכי PDF. הוא מציע יכולות חזקות לניתוח טקסט, תמונות וקבצים מצורפים, מה שהופך אותו לכלי בעל ערך עבור מיצוי נתונים, ניתוח וניהול מסמכים.

עם זאת, חשוב לציין ש-pypdf עשוי להציג בעיות מזדמנות בעת חילוץ טקסט, כגון רווחים נוספים בין מילים ותווים, מה שעלול להשפיע על דיוק התוכן שחולץ. למרות מגבלה זו, pypdf נשאר נכס יקר ערך לניתוח קובצי PDF, במיוחד בתרחישים שבהם עיצוב מדויק של טקסט אינו הדאגה העיקרית.

מוצרים דומים

 Hebrew