1. Produk
  2.   Konversi
  3.   Python
  4.   pdfminer.six
 
  

Perpustakaan Python Konversi PDF ke HTML/XML

Pustaka Python gratis & sumber terbuka untuk mengonversi dokumen PDF menjadi HTML & XML.

Apa itu pdfminer.enam?

pdfminer.six adalah pustaka Python sumber terbuka dan gratis yang dapat digunakan untuk mengonversi dokumen PDF ke format lain.

Berikut daftar singkat fitur konversi PDF utamanya:

  • Konversi PDF ke HTML: Konversikan dokumen PDF ke format HTML dengan tetap menjaga struktur dan tata letak dokumen.
  • Konversi PDF ke XML: Ubah file PDF menjadi format XML, menangkap semua detail, termasuk font dan elemen lainnya.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan pdfminer.six

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

macOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

jendela


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Konversi PDF ke HTML

Kita dapat mengonversi dokumen PDF ke format HTML menggunakan fungsi extract_text_to_fp pada pustaka pdfminer.six (dengan tipe keluaran diatur ke html) yang disediakan oleh pustaka, seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Keluaran

Tangkapan layar berikut menunjukkan file HTML yang dihasilkan dengan mengonversi dokumen PDF:

Mengonversi PDF Ke XML

Kita juga dapat mengonversi dokumen PDF ke format XML menggunakan fungsi extract_text_to_fp yang sama (tetapi dengan tipe keluaran diatur ke xml) yang disediakan oleh perpustakaan, seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Keluaran

Tangkapan layar berikut menunjukkan konten XML yang dikonversi dari dokumen PDF:

Kesimpulan

Secara umum, pdfminer.six mendukung konversi dokumen PDF ke format XML tanpa masalah apa pun, tetapi ketika mencoba mengonversi PDF ke HTML, ia berhasil mentransfer konten teks tetapi sering kali mengganggu tata letak keseluruhan.

Produk Sejenis

 Indonesia