ไลบรารี่โอเพ่นซอร์ส Python สำหรับแปลงไฟล์ PDF เป็น DOCX

สำรวจพลังของไลบรารีโอเพ่นซอร์ส Python เพื่อแปลงเอกสาร PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ

pdf2docx คืออะไร?

คุณสมบัติของ API pdf2docx

ต่อไปนี้คือคุณสมบัติหลักบางประการของ API pdf2docx:

  • การแปลงไฟล์ PDF หลายหน้า: จัดการเอกสาร PDF หลายหน้า โดยแปลงแต่ละหน้าเป็นส่วนที่สอดคล้องกันในไฟล์ DOCX
  • การแยกข้อความ: การแยกข้อความอย่างมีประสิทธิภาพในขณะที่ยังคงเค้าโครงและการจัดรูปแบบให้คล้ายคลึงกับ PDF ต้นฉบับ
  • การจดจำและการแปลงตาราง: ใช้อัลกอริธึมอัจฉริยะในการจดจำและแยกตารางออกมา เพื่อแปลงเป็นตารางในรูปแบบ DOCX ที่สามารถแก้ไขได้
  • การแยกรูปภาพ: การแยกรูปภาพที่ฝังอยู่ใน PDF และวางไว้ในไฟล์ DOCX อย่างเหมาะสม
  • รูปแบบและแบบอักษร: คงไว้ซึ่งแบบอักษรและการจัดรูปแบบพื้นฐาน เช่น ตัวหนา ตัวเอียง และขีดเส้นใต้ในระหว่างการแปลง
  • การรักษาเค้าโครงหน้า: มุ่งเน้นรักษาเค้าโครงเดิมของ PDF รวมถึงย่อหน้า คอลัมน์ และองค์ประกอบการจัดรูปแบบอื่นๆ
  • การตั้งค่าการแปลงแบบกำหนดเอง: ช่วยให้สามารถระบุการตั้งค่าแบบกำหนดเองสำหรับกระบวนการแปลงได้ เช่น การละเว้นรูปภาพหรือการแยกข้อความเพียงอย่างเดียว
  • การประมวลผลแบบแบตช์: รองรับการประมวลผลแบบแบตช์ ซึ่งช่วยให้สามารถแปลง PDF หลายไฟล์เป็นรูปแบบ DOCX ได้พร้อมกัน
  • การแยกไฟล์ตามเทมเพลต: สำหรับ PDF ที่มีเค้าโครงสม่ำเสมอ ช่วยให้สามารถกำหนดเทมเพลตเพื่อแนะนำกระบวนการแยกไฟล์ ช่วยเพิ่มความแม่นยำสำหรับเอกสารประเภทเฉพาะเจาะจง
GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

เริ่มต้นใช้งาน pdf2docx

คุณสามารถดาวน์โหลดไลบรารี pdf2docx ได้จาก GitHub หรือใช้คำสั่ง pip install

การติดตั้ง

การติดตั้ง pdf2docx นั้นง่ายมากและสามารถทำได้จากเทอร์มินัล ดังแสดงด้านล่าง:

การติดตั้ง pdf2docx


pip3 install pdf2docx

ตัวอย่างโค้ด pdf2docx

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

แปลง PDF เป็น DOCX โดยใช้ pdf2docx

ด้วย pdf2docx คุณสามารถแปลงเอกสาร PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ ใช้โค้ดตัวอย่างต่อไปนี้ในแอปพลิเคชัน Python ของคุณเพื่อทำสิ่งนี้

แหล่งที่มาของรูปภาพ: pdf2docx Github Repo

แปลงหน้าเฉพาะของไฟล์ PDF โดยใช้ pdf2docx

pdf2docx ยังช่วยให้คุณแปลงหน้าเฉพาะของไฟล์ PDF เป็น DOCX ได้อีกด้วย คุณกำหนดหน้าเริ่มต้นและหน้าสิ้นสุดของไฟล์ PDF ที่จะแปลงเป็น DOCX จากนั้น API จะแปลงหน้าเหล่านี้เป็น DOCX

แยกตารางจากไฟล์ PDF โดยใช้ pdf2docx

pdf2docx ยังช่วยให้คุณแยกตารางจากไฟล์ PDF และดึงข้อความจากไฟล์นั้นได้ นอกจากนี้ คุณยังสามารถแยกตารางจากไฟล์ PDF และบันทึกลงในไฟล์ DOCX ได้เช่นกัน

ข้อจำกัดของ pdf2docx

pdf2docx มีข้อจำกัดบางประการที่ควรคำนึงถึงขณะใช้งาน API ดังนี้:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • ทิศทางการอ่านปกติ ไม่มีการแปลง/หมุนคำ
  • วิธีการตามกฎเกณฑ์ไม่สามารถแปลงเค้าโครง PDF ได้ 100%

แหล่งข้อมูล pdf2docx

  • ไฟล์เทมเพลต PDF ฟรี
  • บทสรุป

    pdf2docx เป็นไลบรารีที่มีประสิทธิภาพมากสำหรับการแปลง PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ ในฐานะนักพัฒนาแอปพลิเคชัน คุณสามารถใช้ API นี้เพื่อสร้างแอปพลิเคชันการแปลง PDF ที่มีประสิทธิภาพและโฮสต์ไว้ทางออนไลน์เพื่อแปลง PDF เป็น DOCX ในแอปพลิเคชันของคุณ

    สินค้าที่คล้ายกัน

     Thai