Perpustakaan Parser PDF Python Sumber Terbuka
Pustaka Python gratis & sumber terbuka untuk mengurai PDF dan mengekstrak teks dengan informasi pemformatan.
Apa itu pdfminer.enam?
Pdfminer.six adalah pustaka dan perangkat Python open source untuk mengekstrak data dari dokumen PDF. Anda dapat mengurai dokumen PDF dan mengekstrak teks, daftar isi & konten yang diberi tag, dll. dari PDF untuk analisis data.
Berikut daftar singkat fitur penguraiannya:
- Ekstraksi Teks: Ekstrak konten teks dari dokumen PDF termasuk informasi tata letak dan pemformatan seperti warna teks, font dan lokasi, dll.
- Ekstraksi Informasi Font: Ekstrak informasi tentang font yang digunakan dalam dokumen PDF.
Memulai dengan pdfminer.six
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
macOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
jendela
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Ekstrak Teks dari Dokumen PDF
Anda dapat menggunakan pustaka pdfminer.six dengan Python untuk mengekstrak teks dari dokumen PDF dengan menggunakan fungsi extract_text seperti yang ditunjukkan dalam cuplikan kode di bawah ini:
Keluaran
Tangkapan layar berikut menunjukkan teks yang diekstraksi dari dokumen PDF:
Ekstrak Informasi Font Dari Dokumen PDF
Kami juga dapat mengekstrak informasi tentang font yang digunakan dalam Dokumen PDF seperti nama font dan ukuran font dengan melakukan iterasi melalui elemen tata letak setiap halaman di PDF. Misalnya, periksa cuplikan kode di bawah ini:
Keluaran
Tangkapan layar berikut menunjukkan informasi font yang diekstrak dari dokumen PDF:
Kesimpulan
Kesimpulannya, pdfminer.six memiliki kemampuan untuk mengekstrak teks dan informasi lain dari dokumen PDF tetapi tidak memiliki fungsi seperti mengekstrak gambar dan tabel dari PDF.
Penting untuk dicatat bahwa perpustakaan pdfminer.six mendukung ekstraksi halaman PDF sebagai gambar tetapi berbeda dengan mengekstraksi gambar yang tertanam dalam dokumen PDF yang tidak didukung oleh pdfminer.six. Namun, pengembang masih dapat mengandalkannya untuk mengurai PDF dengan Python guna mengekstrak teks untuk kebutuhan analisis data mereka.