Pustaka Parser PDF Python Sumber Terbuka
Parsing PDF dan ekstrak teks, gambar & lampiran dari dokumen PDF menggunakan pustaka Python gratis.
Apa itu pypdf?
Pypdf adalah pustaka Python sumber terbuka yang berharga yang dikenal karena kemahirannya dalam berbagai operasi PDF. Pustaka ini dapat menangani banyak tugas dan operasi yang terkait dengan berkas PDF, namun, kami hanya akan fokus pada fitur penguraian PDF di halaman ini.
Fitur penguraian pypdf yang menonjol meliputi:
- Membaca Berkas PDF: Pypdf memungkinkan Anda untuk membuka dan membaca/mengurai berkas PDF, sehingga memudahkan untuk mengekstrak teks dan data lain dari dokumen PDF yang ada.
- Ekstraksi Konten: Anda dapat mengurai dan mengekstrak teks, gambar, dan lampiran dari dokumen PDF sesuai kebutuhan Anda.
Memulai dengan pypdf
Anda memerlukan Python versi 3.6.0 atau yang lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di komputer Anda menggunakan pip dan lingkungan virtual.
Bahasa Indonesia: Sistem Operasi Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Bahasa Indonesia: MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Jendela
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Ekstrak Teks dari PDF
Please check below code snippet for example:Keluaran
Gambar di bawah ini menunjukkan teks yang diekstrak dari file PDF
Ekstrak Gambar dari PDF
Kita dapat menggunakan pustaka pypdf untuk mengekstrak gambar dari dokumen PDF. Pustaka ini memerlukan pustaka tambahan bernama pillow untuk mengekstrak gambar. Pustaka ini akan menelusuri setiap halaman, mengidentifikasi gambar, dan menyimpannya sebagai berkas gambar terpisah, dengan tetap mempertahankan nama aslinya. Silakan periksa cuplikan kode di bawah ini sebagai contoh:
Keluaran
Teks yang dimasukkan menggunakan kode di atas disorot dalam kotak merah yang diberikan di bawah ini
Ekstrak Lampiran dari PDF
Pustaka pypdf memungkinkan untuk mengekstrak dan menyimpan lampiran dari dokumen PDF. Pustaka ini menelusuri lampiran & isinya dan menyimpannya dalam file terpisah. Silakan periksa cuplikan kode di bawah ini sebagai contoh:
Kesimpulan
Kesimpulannya, pypdf menonjol sebagai pustaka Python serbaguna untuk mengekstraksi fitur dari dokumen PDF. Pustaka ini menawarkan kemampuan tangguh untuk mengurai teks, gambar, dan lampiran, menjadikannya alat yang berharga untuk ekstraksi data, analisis, dan manajemen dokumen.
Namun, penting untuk dicatat bahwa pypdf dapat menimbulkan masalah sesekali saat mengekstraksi teks, seperti spasi tambahan antara kata dan karakter, yang dapat memengaruhi keakuratan konten yang diekstrak. Meskipun ada keterbatasan ini, pypdf tetap menjadi aset berharga untuk mengurai file PDF, terutama dalam skenario di mana format teks yang tepat bukanlah perhatian utama.