Perpustakaan Penghurai PDF Python Sumber Terbuka

Menghuraikan PDF dan mengekstrak teks, imej & lampiran daripada dokumen PDF menggunakan perpustakaan Python percuma.

Apakah itu pypdf?

Pypdf ialah perpustakaan Python sumber terbuka berharga yang terkenal dengan kecekapannya dalam pelbagai operasi PDF. Pustaka ini boleh mengendalikan banyak tugas dan operasi yang berkaitan dengan fail PDF namun, kami hanya akan menumpukan pada ciri penghuraian PDFnya dalam halaman ini.

Ciri penghuraian yang ketara bagi pypdf termasuk:

  • Membaca Fail PDF: Pypdf membenarkan anda membuka dan membaca/menghuraikan fail PDF, menjadikannya mudah untuk mengekstrak teks dan data lain daripada dokumen PDF sedia ada.
  • Pengeluaran Kandungan: Anda boleh menghuraikan dan mengekstrak teks, imej dan lampiran daripada dokumen PDF mengikut keperluan anda.
GitHub

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Bermula dengan pypdf

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

MacOS


python -m venv venv
source venv/bin/activate
pip install pypdf

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

Ekstrak Teks daripada PDF

Please check below code snippet for example:

Imej di bawah menunjukkan teks yang diekstrak daripada fail PDF

Ekstrak Imej daripada PDF

Kita boleh menggunakan perpustakaan pypdf untuk mengekstrak imej daripada dokumen PDF. Ia memerlukan perpustakaan tambahan bernama bantal untuk mengekstrak imej. Ia berulang melalui setiap halaman, mengenal pasti imej, dan menyimpannya sebagai fail imej berasingan, mengekalkan nama asalnya. Sila semak coretan kod di bawah sebagai contoh:

Teks yang dimasukkan menggunakan kod di atas diserlahkan dalam kotak merah yang diberikan di bawah

Ekstrak Lampiran daripada PDF

perpustakaan pypdf membenarkan untuk mengekstrak dan menyimpan lampiran daripada dokumen PDF. Ia berulang melalui lampiran & kandungannya dan menyimpannya dalam fail berasingan. Sila semak coretan kod di bawah sebagai contoh:

Kesimpulan

Kesimpulannya, pypdf menonjol sebagai perpustakaan Python serba boleh untuk mengekstrak ciri daripada dokumen PDF. Ia menawarkan keupayaan teguh untuk menghuraikan teks, imej dan lampiran, menjadikannya alat yang berharga untuk pengekstrakan data, analisis dan pengurusan dokumen.

Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa pypdf mungkin memperkenalkan isu sekali-sekala semasa mengekstrak teks, seperti ruang tambahan antara perkataan dan aksara, yang boleh menjejaskan ketepatan kandungan yang diekstrak. Walaupun had ini, pypdf kekal sebagai aset berharga untuk menghuraikan fail PDF, terutamanya dalam senario di mana pemformatan teks yang tepat bukanlah kebimbangan utama.

Produk Serupa

 Malay