1. Produk
  2.   Penghurai
  3.   Python
  4.   pdfminer.six
 
  

Perpustakaan Penghurai PDF Python Sumber Terbuka

Pustaka Python percuma & sumber terbuka untuk menghuraikan PDF dan mengekstrak teks dengan maklumat pemformatan.

Apakah itu pdfminer.six?

Pdfminer.six ialah perpustakaan Python sumber terbuka dan set alat untuk mengekstrak data daripada dokumen PDF. Anda boleh menghuraikan dokumen PDF dan mengekstrak teks, jadual kandungan & kandungan berteg dsb. daripada PDF untuk analisis data.

Berikut ialah senarai ringkas ciri penghuraiannya:

  • Pengeluaran Teks: Ekstrak kandungan teks daripada dokumen PDF termasuk reka letak dan maklumat pemformatan seperti warna teks, fon dan lokasi dsb.
  • Pengeluaran Maklumat Fon: Ekstrak maklumat tentang fon yang digunakan dalam dokumen PDF.
GitHub

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Bermula dengan pdfminer.six

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Ekstrak Teks daripada Dokumen PDF

Anda boleh menggunakan perpustakaan pdfminer.six dalam Python untuk mengekstrak teks daripada dokumen PDF dengan menggunakan fungsi extract_text seperti yang ditunjukkan dalam coretan kod di bawah:

Tangkapan skrin berikut menunjukkan teks yang diekstrak daripada dokumen PDF:

Ekstrak Maklumat Fon Daripada Dokumen PDF

Kami juga boleh mengekstrak maklumat tentang fon yang digunakan dalam Dokumen PDF seperti nama fon dan saiz fon dengan mengulang elemen reka letak setiap halaman dalam PDF. Sebagai contoh, semak coretan kod di bawah:

Tangkapan skrin berikut menunjukkan maklumat fon yang diekstrak daripada dokumen PDF:

Kesimpulan

Kesimpulannya, pdfminer.six mempunyai kebolehan untuk mengekstrak teks dan maklumat lain daripada dokumen PDF tetapi ia tidak mempunyai fungsi seperti mengekstrak imej dan jadual daripada PDF.

Adalah penting untuk ambil perhatian bahawa perpustakaan pdfminer.six menyokong mengekstrak halaman PDF sebagai imej tetapi ia berbeza daripada mengekstrak imej yang dibenamkan dalam dokumen PDF yang tidak disokong oleh pdfminer.six. Walau bagaimanapun, pembangun masih boleh bergantung padanya untuk menghuraikan PDF dalam Python untuk mengekstrak teks untuk keperluan analisis data mereka.

Produk Serupa

 Malay