Pustaka Parser PDF Python Sumber Terbuka

Parsing PDF dan ekstrak teks, gambar & lampiran dari dokumen PDF menggunakan pustaka Python gratis.

Apa itu pypdf?

Pypdf adalah pustaka Python sumber terbuka yang berharga yang dikenal karena kemahirannya dalam berbagai operasi PDF. Pustaka ini dapat menangani banyak tugas dan operasi yang terkait dengan berkas PDF, namun, kami hanya akan fokus pada fitur penguraian PDF di halaman ini.

Fitur penguraian pypdf yang menonjol meliputi:

  • Membaca Berkas PDF: Pypdf memungkinkan Anda untuk membuka dan membaca/mengurai berkas PDF, sehingga memudahkan untuk mengekstrak teks dan data lain dari dokumen PDF yang ada.
  • Ekstraksi Konten: Anda dapat mengurai dan mengekstrak teks, gambar, dan lampiran dari dokumen PDF sesuai kebutuhan Anda.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan pypdf

Anda memerlukan Python versi 3.6.0 atau yang lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di komputer Anda menggunakan pip dan lingkungan virtual.

Bahasa Indonesia: Sistem Operasi Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Bahasa Indonesia: MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

Jendela


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Ekstrak Teks dari PDF

Please check below code snippet for example:

Keluaran

Gambar di bawah ini menunjukkan teks yang diekstrak dari file PDF

Ekstrak Gambar dari PDF

Kita dapat menggunakan pustaka pypdf untuk mengekstrak gambar dari dokumen PDF. Pustaka ini memerlukan pustaka tambahan bernama pillow untuk mengekstrak gambar. Pustaka ini akan menelusuri setiap halaman, mengidentifikasi gambar, dan menyimpannya sebagai berkas gambar terpisah, dengan tetap mempertahankan nama aslinya. Silakan periksa cuplikan kode di bawah ini sebagai contoh:

Keluaran

Teks yang dimasukkan menggunakan kode di atas disorot dalam kotak merah yang diberikan di bawah ini

Ekstrak Lampiran dari PDF

Pustaka pypdf memungkinkan untuk mengekstrak dan menyimpan lampiran dari dokumen PDF. Pustaka ini menelusuri lampiran & isinya dan menyimpannya dalam file terpisah. Silakan periksa cuplikan kode di bawah ini sebagai contoh:

Kesimpulan

Kesimpulannya, pypdf menonjol sebagai pustaka Python serbaguna untuk mengekstraksi fitur dari dokumen PDF. Pustaka ini menawarkan kemampuan tangguh untuk mengurai teks, gambar, dan lampiran, menjadikannya alat yang berharga untuk ekstraksi data, analisis, dan manajemen dokumen.

Namun, penting untuk dicatat bahwa pypdf dapat menimbulkan masalah sesekali saat mengekstraksi teks, seperti spasi tambahan antara kata dan karakter, yang dapat memengaruhi keakuratan konten yang diekstrak. Meskipun ada keterbatasan ini, pypdf tetap menjadi aset berharga untuk mengurai file PDF, terutama dalam skenario di mana format teks yang tepat bukanlah perhatian utama.

Produk Sejenis

 Indonesia