ספריית Python בקוד פתוח להמרת קבצי PDF ל-DOCX
חקור את הכוח של ספריית Python בקוד פתוח כדי להמיר מסמכי PDF ל-DOCX מתוך יישומי Python שלך.
מה זה pdf2docx?
תכונות API של pdf2docx
להלן כמה מהתכונות העיקריות של PDF2docx API:
- המרה של קובצי PDF מרובי עמודים: מטפל במסמכי PDF מרובי עמודים, וממיר כל עמוד למקטע מתאים בקובץ DOCX.
- חילוץ טקסט: מחלץ טקסט ביעילות תוך שמירה על הפריסה והעיצוב בדומה ל-PDF המקורי.
- זיהוי והמרת טבלאות: משתמש באלגוריתמים חכמים כדי לזהות ולחלץ טבלאות, תוך המרתן לטבלאות בפורמט DOCX הניתנות לעריכה.
- חילוץ תמונה: מחלץ תמונות המוטמעות ב-PDF וממקם אותן כראוי בתוך קובץ ה-DOCX.
- סגנונות גופנים ועיצוב: שומר על סגנונות גופנים ועיצוב בסיסיים כגון מודגש, נטוי וקווי תחתון במהלך ההמרה.
- שימור פריסת עמוד: מטרתו לשמר את הפריסה המקורית של ה-PDF, כולל פסקאות, עמודות ורכיבי עיצוב אחרים.
- הגדרות המרה מותאמות אישית: מאפשר לציין הגדרות מותאמות אישית עבור תהליך ההמרה, כגון התעלמות מתמונות או רק חילוץ טקסט.
- עיבוד אצווה: תומך בעיבוד אצווה, המאפשר המרה של מספר קובצי PDF לפורמט DOCX בו-זמנית.
- חילוץ מבוסס תבניות: עבור קובצי PDF עם פריסה עקבית, מאפשר הגדרה של תבניות כדי להנחות את תהליך החילוץ, ולשפר את הדיוק עבור סוגי מסמכים ספציפיים.
תחילת העבודה עם pdf2docx
אתה יכול להוריד את ספריית pdf2docx מ- GitHub או באמצעות פקודת התקנת pip.
הַתקָנָה
התקנת pdf2docx היא פשוטה וניתן לעשות זאת מהמסוף כפי שמוצג להלן:
התקנת pdf2docx
pip3 install pdf2docx
pdf2docx דוגמאות קוד
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.המר PDF ל-DOCX באמצעות pdf2docx
עם pdf2docx, אתה יכול להמיר מסמך PDF ל-DOCX מתוך אפליקציית Python שלך. השתמש בקוד לדוגמה הבא ביישום Python שלך כדי להשיג זאת.
מקור תמונה: pdf2docx Github Repo
המר דפים ספציפיים של קובץ PDF באמצעות pdf2docx
pdf2docx גם מאפשר לך להמיר דפים ספציפיים של קובץ PDF ל-DOCX. אתה מגדיר את דפי ההתחלה והסיום של קובץ PDF להמרה ל-DOCX ואז ה-API ממיר אותם ל-DOCX.
חלץ טבלאות מקובץ PDF באמצעות pdf2docx
pdf2docx גם מאפשר לחלץ טבלאות מקובץ PDF ולקבל ממנו טקסט. לחלופין, ניתן לחלץ טבלאות מקובץ PDF ולשמור אותן גם בקבצי DOCX.
pdf2docx מגבלות
ל-pdf2docx יש גם כמה מגבלות שכדאי לזכור בזמן העבודה עם ה-API. אלה הם:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- כיוון קריאה רגיל, ללא שינוי / סיבוב מילים
- שיטה מבוססת כללים לא יכולה להמיר ב-100% את פריסת ה-PDF
pdf2docx משאבים
מַסְקָנָה
pdf2docx היא ספרייה חזקה מאוד להמרת PDF ל-DOCX מתוך יישומי Python שלך. כמפתח יישומים, אתה יכול להשתמש ב-API זה כדי ליצור יישומי המרת PDF רבי עוצמה ולארח אותם באופן מקוון להמרת פונקציונליות PDF ל-DOCX באפליקציה שלך.
מוצרים דומים
- Apache POI XWPF | Open Source Java API ליצירה ושינוי של קובצי DOCX
- DocX | Open Source .NET API ליצירה ושינוי של קובצי DOCX
- Docx4J | Open Source Java API ליצירה ושינוי של קובצי DOC ו-DOCX
- ExcelDataReader | Open Source .NET API לקריאת מסמכי XLS, XLSX, CSV ו-Spreadsheet
- FileFormat.Cells | צור ועדכן קבצי Excel עם C# .NET