Perpustakaan Penghurai PDF Python Sumber Terbuka
Pustaka Python percuma & sumber terbuka untuk menghuraikan PDF dan mengekstrak teks dengan maklumat pemformatan.
Apakah itu pdfminer.six?
Pdfminer.six ialah perpustakaan Python sumber terbuka dan set alat untuk mengekstrak data daripada dokumen PDF. Anda boleh menghuraikan dokumen PDF dan mengekstrak teks, jadual kandungan & kandungan berteg dsb. daripada PDF untuk analisis data.
Berikut ialah senarai ringkas ciri penghuraiannya:
- Pengeluaran Teks: Ekstrak kandungan teks daripada dokumen PDF termasuk reka letak dan maklumat pemformatan seperti warna teks, fon dan lokasi dsb.
- Pengeluaran Maklumat Fon: Ekstrak maklumat tentang fon yang digunakan dalam dokumen PDF.
Bermula dengan pdfminer.six
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Ekstrak Teks daripada Dokumen PDF
Anda boleh menggunakan perpustakaan pdfminer.six dalam Python untuk mengekstrak teks daripada dokumen PDF dengan menggunakan fungsi extract_text seperti yang ditunjukkan dalam coretan kod di bawah:
Tangkapan skrin berikut menunjukkan teks yang diekstrak daripada dokumen PDF:
Ekstrak Maklumat Fon Daripada Dokumen PDF
Kami juga boleh mengekstrak maklumat tentang fon yang digunakan dalam Dokumen PDF seperti nama fon dan saiz fon dengan mengulang elemen reka letak setiap halaman dalam PDF. Sebagai contoh, semak coretan kod di bawah:
Tangkapan skrin berikut menunjukkan maklumat fon yang diekstrak daripada dokumen PDF:
Kesimpulan
Kesimpulannya, pdfminer.six mempunyai kebolehan untuk mengekstrak teks dan maklumat lain daripada dokumen PDF tetapi ia tidak mempunyai fungsi seperti mengekstrak imej dan jadual daripada PDF.
Adalah penting untuk ambil perhatian bahawa perpustakaan pdfminer.six menyokong mengekstrak halaman PDF sebagai imej tetapi ia berbeza daripada mengekstrak imej yang dibenamkan dalam dokumen PDF yang tidak disokong oleh pdfminer.six. Walau bagaimanapun, pembangun masih boleh bergantung padanya untuk menghuraikan PDF dalam Python untuk mengekstrak teks untuk keperluan analisis data mereka.