ไลบรารี่โอเพ่นซอร์ส Python สำหรับแปลงไฟล์ PDF เป็น DOCX
สำรวจพลังของไลบรารีโอเพ่นซอร์ส Python เพื่อแปลงเอกสาร PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ
pdf2docx คืออะไร?
คุณสมบัติของ API pdf2docx
ต่อไปนี้คือคุณสมบัติหลักบางประการของ API pdf2docx:
- การแปลงไฟล์ PDF หลายหน้า: จัดการเอกสาร PDF หลายหน้า โดยแปลงแต่ละหน้าเป็นส่วนที่สอดคล้องกันในไฟล์ DOCX
- การแยกข้อความ: การแยกข้อความอย่างมีประสิทธิภาพในขณะที่ยังคงเค้าโครงและการจัดรูปแบบให้คล้ายคลึงกับ PDF ต้นฉบับ
- การจดจำและการแปลงตาราง: ใช้อัลกอริธึมอัจฉริยะในการจดจำและแยกตารางออกมา เพื่อแปลงเป็นตารางในรูปแบบ DOCX ที่สามารถแก้ไขได้
- การแยกรูปภาพ: การแยกรูปภาพที่ฝังอยู่ใน PDF และวางไว้ในไฟล์ DOCX อย่างเหมาะสม
- รูปแบบและแบบอักษร: คงไว้ซึ่งแบบอักษรและการจัดรูปแบบพื้นฐาน เช่น ตัวหนา ตัวเอียง และขีดเส้นใต้ในระหว่างการแปลง
- การรักษาเค้าโครงหน้า: มุ่งเน้นรักษาเค้าโครงเดิมของ PDF รวมถึงย่อหน้า คอลัมน์ และองค์ประกอบการจัดรูปแบบอื่นๆ
- การตั้งค่าการแปลงแบบกำหนดเอง: ช่วยให้สามารถระบุการตั้งค่าแบบกำหนดเองสำหรับกระบวนการแปลงได้ เช่น การละเว้นรูปภาพหรือการแยกข้อความเพียงอย่างเดียว
- การประมวลผลแบบแบตช์: รองรับการประมวลผลแบบแบตช์ ซึ่งช่วยให้สามารถแปลง PDF หลายไฟล์เป็นรูปแบบ DOCX ได้พร้อมกัน
- การแยกไฟล์ตามเทมเพลต: สำหรับ PDF ที่มีเค้าโครงสม่ำเสมอ ช่วยให้สามารถกำหนดเทมเพลตเพื่อแนะนำกระบวนการแยกไฟล์ ช่วยเพิ่มความแม่นยำสำหรับเอกสารประเภทเฉพาะเจาะจง
เริ่มต้นใช้งาน pdf2docx
คุณสามารถดาวน์โหลดไลบรารี pdf2docx ได้จาก GitHub หรือใช้คำสั่ง pip install
การติดตั้ง
การติดตั้ง pdf2docx นั้นง่ายมากและสามารถทำได้จากเทอร์มินัล ดังแสดงด้านล่าง:
การติดตั้ง pdf2docx
pip3 install pdf2docx
ตัวอย่างโค้ด pdf2docx
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.แปลง PDF เป็น DOCX โดยใช้ pdf2docx
ด้วย pdf2docx คุณสามารถแปลงเอกสาร PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ ใช้โค้ดตัวอย่างต่อไปนี้ในแอปพลิเคชัน Python ของคุณเพื่อทำสิ่งนี้
แหล่งที่มาของรูปภาพ: pdf2docx Github Repo
แปลงหน้าเฉพาะของไฟล์ PDF โดยใช้ pdf2docx
pdf2docx ยังช่วยให้คุณแปลงหน้าเฉพาะของไฟล์ PDF เป็น DOCX ได้อีกด้วย คุณกำหนดหน้าเริ่มต้นและหน้าสิ้นสุดของไฟล์ PDF ที่จะแปลงเป็น DOCX จากนั้น API จะแปลงหน้าเหล่านี้เป็น DOCX
แยกตารางจากไฟล์ PDF โดยใช้ pdf2docx
pdf2docx ยังช่วยให้คุณแยกตารางจากไฟล์ PDF และดึงข้อความจากไฟล์นั้นได้ นอกจากนี้ คุณยังสามารถแยกตารางจากไฟล์ PDF และบันทึกลงในไฟล์ DOCX ได้เช่นกัน
ข้อจำกัดของ pdf2docx
pdf2docx มีข้อจำกัดบางประการที่ควรคำนึงถึงขณะใช้งาน API ดังนี้:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- ทิศทางการอ่านปกติ ไม่มีการแปลง/หมุนคำ
- วิธีการตามกฎเกณฑ์ไม่สามารถแปลงเค้าโครง PDF ได้ 100%
แหล่งข้อมูล pdf2docx
บทสรุป
pdf2docx เป็นไลบรารีที่มีประสิทธิภาพมากสำหรับการแปลง PDF เป็น DOCX จากภายในแอปพลิเคชัน Python ของคุณ ในฐานะนักพัฒนาแอปพลิเคชัน คุณสามารถใช้ API นี้เพื่อสร้างแอปพลิเคชันการแปลง PDF ที่มีประสิทธิภาพและโฮสต์ไว้ทางออนไลน์เพื่อแปลง PDF เป็น DOCX ในแอปพลิเคชันของคุณ
สินค้าที่คล้ายกัน
- Apache POI XWPF | โอเพ่นซอร์ส Java API เพื่อสร้างและแก้ไขไฟล์ DOCX
- DocX | โอเพ่นซอร์ส .NET API สำหรับสร้างและแก้ไขไฟล์ DOCX
- Docx4J | โอเพ่นซอร์ส Java API เพื่อสร้างและแก้ไขไฟล์ DOC และ DOCX
- ExcelDataReader | โอเพ่นซอร์ส .NET API สำหรับอ่านเอกสาร XLS, XLSX, CSV และสเปรดชีต
- FileFormat.Cells | ตรวจสอบและอัปเดตไฟล์ Excel ด้วย C# .NET