ספריית פייתון המרת PDF ל-HTML/XML
ספריית Python בחינם וקוד פתוח להמרת מסמכי PDF ל-HTML ו-XML.
מה זה pdfminer.six?
pdfminer.six היא ספריית Python חינמית ופתוח שניתן להשתמש בה כדי להמיר מסמכי PDF לפורמטים אחרים.
להלן רשימה קצרה של תכונות המרת PDF העיקריות שלה:
- המרת PDF ל-HTML: המר מסמכי PDF לפורמט HTML תוך שמירה על המבנה והפריסה של המסמך.
- המרת PDF ל-XML: הפוך קובצי PDF לפורמט XML, תוך לכידת כל הפרטים, כולל גופנים ואלמנטים אחרים.
תחילת העבודה עם pdfminer.six
אתה צריך Python גרסה 3.6.0 ומעלה כדי להתקין ולהשתמש ב-pypdf. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין pypdf במחשב שלך באמצעות pip וסביבה וירטואלית.
לינוקס
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
חלונות
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
המרת PDF ל-HTML
אנו יכולים להמיר מסמך PDF לפורמט HTML באמצעות הפונקציה extract_text_to_fp של ספריית pdfminer.six (עם סוג הפלט מוגדר ל-html) שסופקה על ידי הספרייה, כפי שמוצג בקטע הקוד שלהלן:
תְפוּקָה
צילום המסך הבא מציג את קובץ ה-HTML שנוצר על ידי המרת ה-PDF socument:
המרת PDF ל-XML
אנו יכולים גם להמיר מסמך PDF לפורמט XML באמצעות אותה פונקציה extract_text_to_fp (אך עם סוג הפלט מוגדר ל-xml) שסופקה על ידי הספרייה, כפי שמוצג בקטע הקוד שלהלן:
תְפוּקָה
צילום המסך הבא מציג את תוכן ה-XML שהומר ממסמך ה-PDF:
סיכום
באופן כללי, pdfminer.six תומך בהמרת מסמכי PDF לפורמט XML ללא כל בעיה, אך כאשר מנסים להמיר PDF ל-HTML, הוא מצליח להעביר את תוכן הטקסט אך לעיתים קרובות משבש את הפריסה הכוללת.