Perpustakaan Parser PDF Python Sumber Terbuka
Parsing PDF dan ekstrak teks, gambar & lampiran dari dokumen PDF menggunakan perpustakaan Python gratis.
Apa itu pypdf?
Pypdf adalah pustaka Python open source berharga yang dikenal karena kemahirannya dalam berbagai operasi PDF. Perpustakaan ini dapat menangani banyak tugas dan operasi yang berkaitan dengan file PDF, namun kami hanya akan fokus pada fitur penguraian PDF di halaman ini.
Fitur penguraian penting dari pypdf meliputi:
- Membaca File PDF: Pypdf memungkinkan Anda membuka dan membaca/mengurai file PDF, sehingga memudahkan untuk mengekstrak teks dan data lain dari dokumen PDF yang ada.
- Ekstraksi Konten: Anda dapat mengurai dan mengekstrak teks, gambar, dan lampiran dari dokumen PDF sesuai kebutuhan Anda.
Memulai dengan pypdf
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
macOS
python -m venv venv
source venv/bin/activate
pip install pypdf
jendela
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Ekstrak Teks dari PDF
Please check below code snippet for example:Keluaran
Gambar di bawah menunjukkan teks yang diekstraksi dari file PDF
Ekstrak Gambar dari PDF
Kita dapat menggunakan perpustakaan pypdf untuk mengekstrak gambar dari dokumen PDF. Dibutuhkan perpustakaan tambahan bernama bantal untuk mengekstrak gambar. Ini mengulangi setiap halaman, mengidentifikasi gambar, dan menyimpannya sebagai file gambar terpisah, mempertahankan nama aslinya. Silakan periksa cuplikan kode di bawah ini misalnya:
Keluaran
Teks yang disisipkan menggunakan kode di atas disorot dalam kotak merah di bawah
Ekstrak Lampiran dari PDF
perpustakaan pypdf memungkinkan untuk mengekstrak dan menyimpan lampiran dari dokumen PDF. Itu mengulangi lampiran & isinya dan menyimpannya dalam file terpisah. Silakan periksa cuplikan kode di bawah ini misalnya:
Kesimpulan
Kesimpulannya, pypdf menonjol sebagai pustaka Python serbaguna untuk mengekstraksi fitur dari dokumen PDF. Ini menawarkan kemampuan yang kuat untuk mengurai teks, gambar, dan lampiran, menjadikannya alat yang berharga untuk ekstraksi data, analisis, dan manajemen dokumen.
Namun, penting untuk diperhatikan bahwa pypdf terkadang dapat menimbulkan masalah saat mengekstraksi teks, seperti spasi ekstra antara kata dan karakter, yang dapat memengaruhi keakuratan konten yang diekstraksi. Terlepas dari keterbatasan ini, pypdf tetap menjadi aset berharga untuk menguraikan file PDF, terutama dalam skenario di mana pemformatan teks yang tepat bukanlah hal yang utama.