ספריית מנתח PDF בקוד פתוח של Python
ספריית Python בחינם וקוד פתוח לניתוח קובצי PDF וחילוץ טקסט עם מידע עיצוב.
מה זה pdfminer.six?
Pdfminer.six היא ספריית Python בקוד פתוח וערכת כלים לחילוץ נתונים ממסמכי PDF. אתה יכול לנתח מסמכי PDF ולחלץ טקסט, תוכן עניינים ותוכן מתויג וכו' מקובצי PDF לניתוח נתונים.
להלן רשימה קצרה של תכונות הניתוח שלו:
- חילוץ טקסט: חלץ תוכן טקסט ממסמכי PDF כולל מידע פריסה ועיצוב כמו צבע טקסט, גופן ומיקום וכו'.
- חילוץ מידע על גופנים: חלץ מידע על הגופנים המשמשים במסמכי PDF.
תחילת העבודה עם pdfminer.six
אתה צריך Python גרסה 3.6.0 ומעלה כדי להתקין ולהשתמש ב-pypdf. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין pypdf במחשב שלך באמצעות pip וסביבה וירטואלית.
לינוקס
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
חלונות
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
חלץ טקסט ממסמך PDF
אתה יכול להשתמש בספריית pdfminer.six ב-Python כדי לחלץ טקסט ממסמך PDF באמצעות הפונקציה extract_text כפי שמוצג בקטע הקוד שלהלן:
תְפוּקָה
צילום המסך הבא מציג את הטקסט שחולץ ממסמך ה-PDF:
חלץ מידע גופן ממסמך PDF
אנו יכולים גם לחלץ את המידע על הגופנים המשמשים במסמך ה-PDF, כגון שם הגופן וגודל הגופן על ידי איטרציה של רכיבי פריסה של כל עמוד ב-PDF. לדוגמה, בדוק את קטע הקוד למטה:
תְפוּקָה
צילום המסך הבא מציג את מידע הגופן שחולץ ממסמך ה-PDF:
סיכום
לסיכום, ל-pdfminer.six יש יכולות לחלץ טקסט ומידע אחר ממסמכי PDF אך הוא חסר פונקציונליות כמו חילוץ תמונות וטבלאות מקובצי PDF.
חשוב לציין שספריית pdfminer.six תומכת בחילוץ דפי PDF כתמונות אבל זה שונה מחילוץ תמונות המוטמעות במסמכי PDF שאינה נתמכת על ידי pdfminer.six. עם זאת, מפתחים עדיין יכולים לסמוך עליו לניתוח קובצי PDF ב-Python כדי לחלץ טקסט לצרכי ניתוח הנתונים שלהם.