Perpustakaan Python Konversi PDF ke HTML/XML
Pustaka Python gratis & sumber terbuka untuk mengonversi dokumen PDF menjadi HTML & XML.
Apa itu pdfminer.enam?
pdfminer.six adalah pustaka Python sumber terbuka dan gratis yang dapat digunakan untuk mengonversi dokumen PDF ke format lain.
Berikut daftar singkat fitur konversi PDF utamanya:
- Konversi PDF ke HTML: Konversikan dokumen PDF ke format HTML dengan tetap menjaga struktur dan tata letak dokumen.
- Konversi PDF ke XML: Ubah file PDF menjadi format XML, menangkap semua detail, termasuk font dan elemen lainnya.
Memulai dengan pdfminer.six
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
macOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
jendela
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Konversi PDF ke HTML
Kita dapat mengonversi dokumen PDF ke format HTML menggunakan fungsi extract_text_to_fp pada pustaka pdfminer.six (dengan tipe keluaran diatur ke html) yang disediakan oleh pustaka, seperti yang ditunjukkan dalam cuplikan kode di bawah ini:
Keluaran
Tangkapan layar berikut menunjukkan file HTML yang dihasilkan dengan mengonversi dokumen PDF:
Mengonversi PDF Ke XML
Kita juga dapat mengonversi dokumen PDF ke format XML menggunakan fungsi extract_text_to_fp yang sama (tetapi dengan tipe keluaran diatur ke xml) yang disediakan oleh perpustakaan, seperti yang ditunjukkan dalam cuplikan kode di bawah ini:
Keluaran
Tangkapan layar berikut menunjukkan konten XML yang dikonversi dari dokumen PDF:
Kesimpulan
Secara umum, pdfminer.six mendukung konversi dokumen PDF ke format XML tanpa masalah apa pun, tetapi ketika mencoba mengonversi PDF ke HTML, ia berhasil mentransfer konten teks tetapi sering kali mengganggu tata letak keseluruhan.