Perpustakaan Parser PDF Python Sumber Terbuka

Parsing PDF dan ekstrak teks, gambar & lampiran dari dokumen PDF menggunakan perpustakaan Python gratis.

Apa itu pypdf?

Pypdf adalah pustaka Python open source berharga yang dikenal karena kemahirannya dalam berbagai operasi PDF. Perpustakaan ini dapat menangani banyak tugas dan operasi yang berkaitan dengan file PDF, namun kami hanya akan fokus pada fitur penguraian PDF di halaman ini.

Fitur penguraian penting dari pypdf meliputi:

  • Membaca File PDF: Pypdf memungkinkan Anda membuka dan membaca/mengurai file PDF, sehingga memudahkan untuk mengekstrak teks dan data lain dari dokumen PDF yang ada.
  • Ekstraksi Konten: Anda dapat mengurai dan mengekstrak teks, gambar, dan lampiran dari dokumen PDF sesuai kebutuhan Anda.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan pypdf

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

macOS


python -m venv venv
source venv/bin/activate
pip install pypdf

jendela


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Ekstrak Teks dari PDF

Please check below code snippet for example:

Keluaran

Gambar di bawah menunjukkan teks yang diekstraksi dari file PDF

Ekstrak Gambar dari PDF

Kita dapat menggunakan perpustakaan pypdf untuk mengekstrak gambar dari dokumen PDF. Dibutuhkan perpustakaan tambahan bernama bantal untuk mengekstrak gambar. Ini mengulangi setiap halaman, mengidentifikasi gambar, dan menyimpannya sebagai file gambar terpisah, mempertahankan nama aslinya. Silakan periksa cuplikan kode di bawah ini misalnya:

Keluaran

Teks yang disisipkan menggunakan kode di atas disorot dalam kotak merah di bawah

Ekstrak Lampiran dari PDF

perpustakaan pypdf memungkinkan untuk mengekstrak dan menyimpan lampiran dari dokumen PDF. Itu mengulangi lampiran & isinya dan menyimpannya dalam file terpisah. Silakan periksa cuplikan kode di bawah ini misalnya:

Kesimpulan

Kesimpulannya, pypdf menonjol sebagai pustaka Python serbaguna untuk mengekstraksi fitur dari dokumen PDF. Ini menawarkan kemampuan yang kuat untuk mengurai teks, gambar, dan lampiran, menjadikannya alat yang berharga untuk ekstraksi data, analisis, dan manajemen dokumen.

Namun, penting untuk diperhatikan bahwa pypdf terkadang dapat menimbulkan masalah saat mengekstraksi teks, seperti spasi ekstra antara kata dan karakter, yang dapat memengaruhi keakuratan konten yang diekstraksi. Terlepas dari keterbatasan ini, pypdf tetap menjadi aset berharga untuk menguraikan file PDF, terutama dalam skenario di mana pemformatan teks yang tepat bukanlah hal yang utama.

Produk Sejenis

 Indonesia