1. Produk
  2.   pengurai
  3.   Python
  4.   pdfminer.six
 
  

Perpustakaan Parser PDF Python Sumber Terbuka

Pustaka Python gratis & sumber terbuka untuk mengurai PDF dan mengekstrak teks dengan informasi pemformatan.

Apa itu pdfminer.enam?

Pdfminer.six adalah pustaka dan perangkat Python open source untuk mengekstrak data dari dokumen PDF. Anda dapat mengurai dokumen PDF dan mengekstrak teks, daftar isi & konten yang diberi tag, dll. dari PDF untuk analisis data.

Berikut daftar singkat fitur penguraiannya:

  • Ekstraksi Teks: Ekstrak konten teks dari dokumen PDF termasuk informasi tata letak dan pemformatan seperti warna teks, font dan lokasi, dll.
  • Ekstraksi Informasi Font: Ekstrak informasi tentang font yang digunakan dalam dokumen PDF.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan pdfminer.six

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di mesin Anda menggunakan pip dan lingkungan virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

macOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

jendela


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Ekstrak Teks dari Dokumen PDF

Anda dapat menggunakan pustaka pdfminer.six dengan Python untuk mengekstrak teks dari dokumen PDF dengan menggunakan fungsi extract_text seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Keluaran

Tangkapan layar berikut menunjukkan teks yang diekstraksi dari dokumen PDF:

Ekstrak Informasi Font Dari Dokumen PDF

Kami juga dapat mengekstrak informasi tentang font yang digunakan dalam Dokumen PDF seperti nama font dan ukuran font dengan melakukan iterasi melalui elemen tata letak setiap halaman di PDF. Misalnya, periksa cuplikan kode di bawah ini:

Keluaran

Tangkapan layar berikut menunjukkan informasi font yang diekstrak dari dokumen PDF:

Kesimpulan

Kesimpulannya, pdfminer.six memiliki kemampuan untuk mengekstrak teks dan informasi lain dari dokumen PDF tetapi tidak memiliki fungsi seperti mengekstrak gambar dan tabel dari PDF.

Penting untuk dicatat bahwa perpustakaan pdfminer.six mendukung ekstraksi halaman PDF sebagai gambar tetapi berbeda dengan mengekstraksi gambar yang tertanam dalam dokumen PDF yang tidak didukung oleh pdfminer.six. Namun, pengembang masih dapat mengandalkannya untuk mengurai PDF dengan Python guna mengekstrak teks untuk kebutuhan analisis data mereka.

Produk Sejenis

 Indonesia