Perpustakaan Penghurai PDF Python Sumber Terbuka
Menghuraikan PDF dan mengekstrak teks, imej & lampiran daripada dokumen PDF menggunakan perpustakaan Python percuma.
Apakah itu pypdf?
Pypdf ialah perpustakaan Python sumber terbuka berharga yang terkenal dengan kecekapannya dalam pelbagai operasi PDF. Pustaka ini boleh mengendalikan banyak tugas dan operasi yang berkaitan dengan fail PDF namun, kami hanya akan menumpukan pada ciri penghuraian PDFnya dalam halaman ini.
Ciri penghuraian yang ketara bagi pypdf termasuk:
- Membaca Fail PDF: Pypdf membenarkan anda membuka dan membaca/menghuraikan fail PDF, menjadikannya mudah untuk mengekstrak teks dan data lain daripada dokumen PDF sedia ada.
- Pengeluaran Kandungan: Anda boleh menghuraikan dan mengekstrak teks, imej dan lampiran daripada dokumen PDF mengikut keperluan anda.
Bermula dengan pypdf
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
MacOS
python -m venv venv
source venv/bin/activate
pip install pypdf
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
Ekstrak Teks daripada PDF
Please check below code snippet for example:Imej di bawah menunjukkan teks yang diekstrak daripada fail PDF
Ekstrak Imej daripada PDF
Kita boleh menggunakan perpustakaan pypdf untuk mengekstrak imej daripada dokumen PDF. Ia memerlukan perpustakaan tambahan bernama bantal untuk mengekstrak imej. Ia berulang melalui setiap halaman, mengenal pasti imej, dan menyimpannya sebagai fail imej berasingan, mengekalkan nama asalnya. Sila semak coretan kod di bawah sebagai contoh:
Teks yang dimasukkan menggunakan kod di atas diserlahkan dalam kotak merah yang diberikan di bawah
Ekstrak Lampiran daripada PDF
perpustakaan pypdf membenarkan untuk mengekstrak dan menyimpan lampiran daripada dokumen PDF. Ia berulang melalui lampiran & kandungannya dan menyimpannya dalam fail berasingan. Sila semak coretan kod di bawah sebagai contoh:
Kesimpulan
Kesimpulannya, pypdf menonjol sebagai perpustakaan Python serba boleh untuk mengekstrak ciri daripada dokumen PDF. Ia menawarkan keupayaan teguh untuk menghuraikan teks, imej dan lampiran, menjadikannya alat yang berharga untuk pengekstrakan data, analisis dan pengurusan dokumen.
Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa pypdf mungkin memperkenalkan isu sekali-sekala semasa mengekstrak teks, seperti ruang tambahan antara perkataan dan aksara, yang boleh menjejaskan ketepatan kandungan yang diekstrak. Walaupun had ini, pypdf kekal sebagai aset berharga untuk menghuraikan fail PDF, terutamanya dalam senario di mana pemformatan teks yang tepat bukanlah kebimbangan utama.