1. Produk
  2.   Penukaran
  3.   Python
  4.   pdf2docx
 
  

Perpustakaan Python Sumber Terbuka untuk Menukar fail PDF kepada DOCX

Terokai kuasa perpustakaan Python sumber terbuka untuk menukar dokumen PDF kepada DOCX dari dalam aplikasi Python anda.

Apakah pdf2docx?

Ciri API pdf2docx

Berikut ialah beberapa ciri utama API pdf2docx:

  • Penukaran PDF Berbilang halaman: Mengendalikan dokumen PDF berbilang halaman, menukar setiap halaman kepada bahagian yang sepadan dalam fail DOCX.
  • Ekstraksi Teks: Mengekstrak teks dengan cekap sambil mengekalkan reka letak dan pemformatan yang serupa dengan PDF asal.
  • Pengecaman dan Penukaran Jadual: Menggunakan algoritma pintar untuk mengecam dan mengekstrak jadual, menukarkannya kepada jadual format DOCX yang boleh diedit.
  • Pengeluaran Imej: Mengekstrak imej yang dibenamkan dalam PDF dan meletakkannya dengan sewajarnya dalam fail DOCX.
  • Gaya dan Pemformatan Fon: Mengekalkan gaya dan pemformatan fon asas seperti tebal, condong dan garis bawah semasa penukaran.
  • Pemeliharaan Reka Letak Halaman: Bertujuan untuk mengekalkan reka letak asal PDF, termasuk perenggan, lajur dan elemen pemformatan lain.
  • Tetapan Penukaran Tersuai: Membenarkan spesifikasi tetapan tersuai untuk proses penukaran, seperti mengabaikan imej atau hanya mengekstrak teks.
  • Pemprosesan Kelompok: Menyokong pemprosesan kelompok, membolehkan penukaran berbilang PDF kepada format DOCX secara serentak.
  • Pengeluaran berasaskan Templat: Untuk PDF dengan reka letak yang konsisten, membenarkan takrif templat untuk membimbing proses pengekstrakan, meningkatkan ketepatan untuk jenis dokumen tertentu.
GitHub

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Bermula dengan pdf2docx

Anda boleh memuat turun perpustakaan pdf2docx dari GitHub atau menggunakan arahan pemasangan pip.

Pemasangan

Memasang pdf2docx adalah mudah dan boleh dilakukan dari terminal seperti yang ditunjukkan di bawah:

Memasang pdf2docx


pip3 install pdf2docx

Contoh Kod pdf2docx

Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.

Tukar PDF kepada DOCX menggunakan pdf2docx

Dengan pdf2docx, anda boleh menukar dokumen PDF kepada DOCX dari dalam aplikasi Python anda. Gunakan kod contoh berikut dalam aplikasi Python anda untuk mencapai ini.

Sumber Imej: pdf2docx Github Repo

Tukar Halaman Khusus fail PDF menggunakan pdf2docx

pdf2docx juga membolehkan anda menukar halaman tertentu fail PDF kepada DOCX. Anda menentukan halaman mula dan akhir fail PDF untuk ditukar kepada DOCX dan kemudian API menukarnya kepada DOCX.

Ekstrak Jadual daripada fail PDF menggunakan pdf2docx

pdf2docx juga membolehkan anda mengekstrak jadual daripada fail PDF dan mendapatkan teks daripadanya. Sebagai alternatif, anda boleh mengekstrak jadual daripada fail PDF dan menyimpannya ke fail DOCX juga.

pdf2docx Had

pdf2docx juga mempunyai beberapa batasan yang harus diingat semasa bekerja dengan API. Ini adalah:

  • It can only process Text-based PDF file
  • Only Left to right language PDF files can be processed
  • Arah bacaan biasa, tiada perubahan / putaran perkataan
  • Kaedah berasaskan peraturan tidak boleh 100% menukar reka letak PDF

pdf2docx Sumber

  • Fail Templat PDF PERCUMA
  • Kesimpulan

    pdf2docx ialah perpustakaan yang sangat berkuasa untuk menukar PDF kepada DOCX dari dalam aplikasi Python anda. Sebagai pembangun aplikasi, anda boleh menggunakan API ini untuk mencipta aplikasi penukaran PDF yang berkuasa dan mengehoskannya dalam talian untuk menukar fungsi PDF kepada DOCX dalam aplikasi anda.

    Produk Serupa

     Malay