ספריית פייתון המרת PDF ל-HTML/XML

ספריית Python בחינם וקוד פתוח להמרת מסמכי PDF ל-HTML ו-XML.

מה זה pdfminer.six?

pdfminer.six היא ספריית Python חינמית ופתוח שניתן להשתמש בה כדי להמיר מסמכי PDF לפורמטים אחרים.

להלן רשימה קצרה של תכונות המרת PDF העיקריות שלה:

  • המרת PDF ל-HTML: המר מסמכי PDF לפורמט HTML תוך שמירה על המבנה והפריסה של המסמך.
  • המרת PDF ל-XML: הפוך קובצי PDF לפורמט XML, תוך לכידת כל הפרטים, כולל גופנים ואלמנטים אחרים.
GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם pdfminer.six

אתה צריך Python גרסה 3.6.0 ומעלה כדי להתקין ולהשתמש ב-pypdf. אז, תחילה התקן את Python ולאחר מכן השתמש בפקודות הבאות כדי להתקין pypdf במחשב שלך באמצעות pip וסביבה וירטואלית.

לינוקס


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

חלונות


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

המרת PDF ל-HTML

אנו יכולים להמיר מסמך PDF לפורמט HTML באמצעות הפונקציה extract_text_to_fp של ספריית pdfminer.six (עם סוג הפלט מוגדר ל-html) שסופקה על ידי הספרייה, כפי שמוצג בקטע הקוד שלהלן:

תְפוּקָה

צילום המסך הבא מציג את קובץ ה-HTML שנוצר על ידי המרת ה-PDF socument:

המרת PDF ל-XML

אנו יכולים גם להמיר מסמך PDF לפורמט XML באמצעות אותה פונקציה extract_text_to_fp (אך עם סוג הפלט מוגדר ל-xml) שסופקה על ידי הספרייה, כפי שמוצג בקטע הקוד שלהלן:

תְפוּקָה

צילום המסך הבא מציג את תוכן ה-XML שהומר ממסמך ה-PDF:

סיכום

באופן כללי, pdfminer.six תומך בהמרת מסמכי PDF לפורמט XML ללא כל בעיה, אך כאשר מנסים להמיר PDF ל-HTML, הוא מצליח להעביר את תוכן הטקסט אך לעיתים קרובות משבש את הפריסה הכוללת.

מוצרים דומים

 Hebrew