1. מוצרים
  2.   מנתח
  3.   Python
  4.   pdfminer.six
 
  

ספריית מנתח PDF בקוד פתוח של Python

ספריית Python בחינם וקוד פתוח לניתוח קובצי PDF וחילוץ טקסט עם מידע עיצוב.

מה זה pdfminer.six?

Pdfminer.six היא ספריית Python בקוד פתוח וערכת כלים לחילוץ נתונים ממסמכי PDF. אתה יכול לנתח מסמכי PDF ולחלץ טקסט, תוכן עניינים ותוכן מתויג וכו' מקובצי PDF לניתוח נתונים.

להלן רשימה קצרה של תכונות הניתוח שלו:

  • חילוץ טקסט: חלץ תוכן טקסט ממסמכי PDF כולל מידע פריסה ועיצוב כמו צבע טקסט, גופן ומיקום וכו'.
  • חילוץ מידע על גופנים: חלץ מידע על הגופנים המשמשים במסמכי PDF.
GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם pdfminer.six

אתה צריך Python גרסה 3.6.0 ומעלה כדי להתקין ולהשתמש ב-pypdf. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין pypdf במחשב שלך באמצעות pip וסביבה וירטואלית.

לינוקס


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

חלונות


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

חלץ טקסט ממסמך PDF

אתה יכול להשתמש בספריית pdfminer.six ב-Python כדי לחלץ טקסט ממסמך PDF באמצעות הפונקציה extract_text כפי שמוצג בקטע הקוד שלהלן:

תְפוּקָה

צילום המסך הבא מציג את הטקסט שחולץ ממסמך ה-PDF:

חלץ מידע גופן ממסמך PDF

אנו יכולים גם לחלץ את המידע על הגופנים המשמשים במסמך ה-PDF, כגון שם הגופן וגודל הגופן על ידי איטרציה של רכיבי פריסה של כל עמוד ב-PDF. לדוגמה, בדוק את קטע הקוד למטה:

תְפוּקָה

צילום המסך הבא מציג את מידע הגופן שחולץ ממסמך ה-PDF:

סיכום

לסיכום, ל-pdfminer.six יש יכולות לחלץ טקסט ומידע אחר ממסמכי PDF אך הוא חסר פונקציונליות כמו חילוץ תמונות וטבלאות מקובצי PDF.

חשוב לציין שספריית pdfminer.six תומכת בחילוץ דפי PDF כתמונות אבל זה שונה מחילוץ תמונות המוטמעות במסמכי PDF שאינה נתמכת על ידי pdfminer.six. עם זאת, מפתחים עדיין יכולים לסמוך עליו לניתוח קובצי PDF ב-Python כדי לחלץ טקסט לצרכי ניתוח הנתונים שלהם.

מוצרים דומים

 Hebrew