Perpustakaan Python Sumber Terbuka untuk Menukar fail PDF kepada DOCX
Terokai kuasa perpustakaan Python sumber terbuka untuk menukar dokumen PDF kepada DOCX dari dalam aplikasi Python anda.
Apakah pdf2docx?
Ciri API pdf2docx
Berikut ialah beberapa ciri utama API pdf2docx:
- Penukaran PDF Berbilang halaman: Mengendalikan dokumen PDF berbilang halaman, menukar setiap halaman kepada bahagian yang sepadan dalam fail DOCX.
- Ekstraksi Teks: Mengekstrak teks dengan cekap sambil mengekalkan reka letak dan pemformatan yang serupa dengan PDF asal.
- Pengecaman dan Penukaran Jadual: Menggunakan algoritma pintar untuk mengecam dan mengekstrak jadual, menukarkannya kepada jadual format DOCX yang boleh diedit.
- Pengeluaran Imej: Mengekstrak imej yang dibenamkan dalam PDF dan meletakkannya dengan sewajarnya dalam fail DOCX.
- Gaya dan Pemformatan Fon: Mengekalkan gaya dan pemformatan fon asas seperti tebal, condong dan garis bawah semasa penukaran.
- Pemeliharaan Reka Letak Halaman: Bertujuan untuk mengekalkan reka letak asal PDF, termasuk perenggan, lajur dan elemen pemformatan lain.
- Tetapan Penukaran Tersuai: Membenarkan spesifikasi tetapan tersuai untuk proses penukaran, seperti mengabaikan imej atau hanya mengekstrak teks.
- Pemprosesan Kelompok: Menyokong pemprosesan kelompok, membolehkan penukaran berbilang PDF kepada format DOCX secara serentak.
- Pengeluaran berasaskan Templat: Untuk PDF dengan reka letak yang konsisten, membenarkan takrif templat untuk membimbing proses pengekstrakan, meningkatkan ketepatan untuk jenis dokumen tertentu.
Bermula dengan pdf2docx
Anda boleh memuat turun perpustakaan pdf2docx dari GitHub atau menggunakan arahan pemasangan pip.
Pemasangan
Memasang pdf2docx adalah mudah dan boleh dilakukan dari terminal seperti yang ditunjukkan di bawah:
Memasang pdf2docx
pip3 install pdf2docx
Contoh Kod pdf2docx
Examples using the python-pptx Python library are as follow. You can use the FREE PDF file template to try these examples.Tukar PDF kepada DOCX menggunakan pdf2docx
Dengan pdf2docx, anda boleh menukar dokumen PDF kepada DOCX dari dalam aplikasi Python anda. Gunakan kod contoh berikut dalam aplikasi Python anda untuk mencapai ini.
Sumber Imej: pdf2docx Github Repo
Tukar Halaman Khusus fail PDF menggunakan pdf2docx
pdf2docx juga membolehkan anda menukar halaman tertentu fail PDF kepada DOCX. Anda menentukan halaman mula dan akhir fail PDF untuk ditukar kepada DOCX dan kemudian API menukarnya kepada DOCX.
Ekstrak Jadual daripada fail PDF menggunakan pdf2docx
pdf2docx juga membolehkan anda mengekstrak jadual daripada fail PDF dan mendapatkan teks daripadanya. Sebagai alternatif, anda boleh mengekstrak jadual daripada fail PDF dan menyimpannya ke fail DOCX juga.
pdf2docx Had
pdf2docx juga mempunyai beberapa batasan yang harus diingat semasa bekerja dengan API. Ini adalah:
- It can only process Text-based PDF file
- Only Left to right language PDF files can be processed
- Arah bacaan biasa, tiada perubahan / putaran perkataan
- Kaedah berasaskan peraturan tidak boleh 100% menukar reka letak PDF
pdf2docx Sumber
Kesimpulan
pdf2docx ialah perpustakaan yang sangat berkuasa untuk menukar PDF kepada DOCX dari dalam aplikasi Python anda. Sebagai pembangun aplikasi, anda boleh menggunakan API ini untuk mencipta aplikasi penukaran PDF yang berkuasa dan mengehoskannya dalam talian untuk menukar fungsi PDF kepada DOCX dalam aplikasi anda.
Produk Serupa
- Apache POI XWPF | Open Source Java API untuk Mencipta & Mengubah suai fail DOCX
- DocX | Open Source .NET API untuk Mencipta & Mengubah suai fail DOCX
- Docx4J | Open Source Java API untuk Mencipta & Mengubah suai fail DOC dan DOCX
- ExcelDataReader | Open Source .NET API untuk membaca dokumen XLS, XLSX, CSV dan Spreadsheet
- FileFormat.Cells | Cerate dan Kemas kini fail Excel dengan C# .NET