1. Produk
  2.   pengurai
  3.   Python
  4.   pdfminer.six
 
  

Pustaka Parser PDF Python Sumber Terbuka

Pustaka Python gratis & sumber terbuka untuk mengurai PDF dan mengekstrak teks dengan informasi pemformatan.

Apa itu pdfminer.six?

Pdfminer.six adalah pustaka dan perangkat Python sumber terbuka untuk mengekstrak data dari dokumen PDF. Anda dapat mengurai dokumen PDF dan mengekstrak teks, daftar isi & konten yang diberi tag, dll. dari PDF untuk analisis data.

Berikut ini daftar singkat fitur penguraiannya:

  • Ekstraksi Teks: Ekstrak konten teks dari dokumen PDF termasuk informasi tata letak dan pemformatan seperti warna teks, font, dan lokasi, dll.
  • Ekstraksi Informasi Font: Ekstrak informasi tentang font yang digunakan dalam dokumen PDF.
GitHub

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan pdfminer.six

Anda memerlukan Python versi 3.6.0 atau yang lebih tinggi untuk menginstal dan menggunakan pypdf. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal pypdf di komputer Anda menggunakan pip dan lingkungan virtual.

Bahasa Indonesia: Sistem Operasi Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Bahasa Indonesia: MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Jendela


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Ekstrak Teks dari Dokumen PDF

Anda dapat menggunakan pustaka pdfminer.six dalam Python untuk mengekstrak teks dari dokumen PDF dengan menggunakan fungsi extract_text seperti yang ditunjukkan dalam cuplikan kode di bawah ini:

Keluaran

Cuplikan layar berikut menunjukkan teks yang diekstrak dari dokumen PDF:

Ekstrak Informasi Font Dari Dokumen PDF

Kita juga dapat mengekstrak informasi tentang font yang digunakan dalam Dokumen PDF seperti nama font dan ukuran font dengan mengulangi elemen tata letak setiap halaman dalam PDF. Misalnya, periksa cuplikan kode di bawah ini:

Keluaran

Tangkapan layar berikut menunjukkan informasi font yang diekstrak dari dokumen PDF:

Kesimpulan

Kesimpulannya, pdfminer.six memiliki kemampuan untuk mengekstrak teks dan informasi lain dari dokumen PDF tetapi tidak memiliki fungsionalitas seperti mengekstrak gambar dan tabel dari PDF.

Penting untuk dicatat bahwa pustaka pdfminer.six mendukung ekstraksi halaman PDF sebagai gambar, tetapi berbeda dengan ekstraksi gambar yang disematkan dalam dokumen PDF yang tidak didukung oleh pdfminer.six. Akan tetapi, pengembang tetap dapat mengandalkannya untuk mengurai PDF dalam Python guna mengekstrak teks untuk kebutuhan analisis data mereka.

Produk Sejenis

 Indonesia