ספריית Python בקוד פתוח להמרת קבצי PDF ל-DOCX

חקור את הכוח של ספריית Python בקוד פתוח כדי להמיר מסמכי PDF ל-DOCX מתוך יישומי Python שלך.

מה זה pdf2docx?

תכונות API של pdf2docx

להלן כמה מהתכונות העיקריות של PDF2docx API:

  • המרה של קובצי PDF מרובי עמודים: מטפל במסמכי PDF מרובי עמודים, וממיר כל עמוד למקטע מתאים בקובץ DOCX.
  • חילוץ טקסט: מחלץ טקסט ביעילות תוך שמירה על הפריסה והעיצוב בדומה ל-PDF המקורי.
  • זיהוי והמרת טבלאות: משתמש באלגוריתמים חכמים כדי לזהות ולחלץ טבלאות, תוך המרתן לטבלאות בפורמט DOCX הניתנות לעריכה.
  • חילוץ תמונה: מחלץ תמונות המוטמעות ב-PDF וממקם אותן כראוי בתוך קובץ ה-DOCX.
  • סגנונות גופנים ועיצוב: שומר על סגנונות גופנים ועיצוב בסיסיים כגון מודגש, נטוי וקווי תחתון במהלך ההמרה.
  • שימור פריסת עמוד: מטרתו לשמר את הפריסה המקורית של ה-PDF, כולל פסקאות, עמודות ורכיבי עיצוב אחרים.
  • הגדרות המרה מותאמות אישית: מאפשר לציין הגדרות מותאמות אישית עבור תהליך ההמרה, כגון התעלמות מתמונות או רק חילוץ טקסט.
  • עיבוד אצווה: תומך בעיבוד אצווה, המאפשר המרה של מספר קובצי PDF לפורמט DOCX בו-זמנית.
  • חילוץ מבוסס תבניות: עבור קובצי PDF עם פריסה עקבית, מאפשר הגדרה של תבניות כדי להנחות את תהליך החילוץ, ולשפר את הדיוק עבור סוגי מסמכים ספציפיים.
GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

תחילת העבודה עם pdf2docx

אתה יכול להוריד את ספריית pdf2docx מ- GitHub או באמצעות פקודת התקנת pip.

הַתקָנָה

התקנת pdf2docx היא פשוטה וניתן לעשות זאת מהמסוף כפי שמוצג להלן:

התקנת pdf2docx


pip3 install pdf2docx

pdf2docx דוגמאות קוד

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

המר PDF ל-DOCX באמצעות pdf2docx

עם pdf2docx, אתה יכול להמיר מסמך PDF ל-DOCX מתוך אפליקציית Python שלך. השתמש בקוד לדוגמה הבא ביישום Python שלך כדי להשיג זאת.

מקור תמונה: pdf2docx Github Repo

המר דפים ספציפיים של קובץ PDF באמצעות pdf2docx

pdf2docx גם מאפשר לך להמיר דפים ספציפיים של קובץ PDF ל-DOCX. אתה מגדיר את דפי ההתחלה והסיום של קובץ PDF להמרה ל-DOCX ואז ה-API ממיר אותם ל-DOCX.

חלץ טבלאות מקובץ PDF באמצעות pdf2docx

pdf2docx גם מאפשר לחלץ טבלאות מקובץ PDF ולקבל ממנו טקסט. לחלופין, ניתן לחלץ טבלאות מקובץ PDF ולשמור אותן גם בקבצי DOCX.

pdf2docx מגבלות

ל-pdf2docx יש גם כמה מגבלות שכדאי לזכור בזמן העבודה עם ה-API. אלה הם:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • כיוון קריאה רגיל, ללא שינוי / סיבוב מילים
  • שיטה מבוססת כללים לא יכולה להמיר ב-100% את פריסת ה-PDF

pdf2docx משאבים

  • קובץ תבנית PDF בחינם
  • מַסְקָנָה

    pdf2docx היא ספרייה חזקה מאוד להמרת PDF ל-DOCX מתוך יישומי Python שלך. כמפתח יישומים, אתה יכול להשתמש ב-API זה כדי ליצור יישומי המרת PDF רבי עוצמה ולארח אותם באופן מקוון להמרת פונקציונליות PDF ל-DOCX באפליקציה שלך.

    מוצרים דומים

     Hebrew