Pustaka Parser PDF Python Sumber Terbuka

Cobalah pustaka Python sumber terbuka & gratis ini untuk mengurai, membaca, dan mengekstrak teks, gambar, tabel, dan konten lainnya dari dokumen PDF.

Apa itu PyMuPDF?

PyMuPDF, yang juga dikenal sebagai Fitz, adalah pustaka Python sumber terbuka yang menyediakan seperangkat alat lengkap untuk bekerja dengan berkas PDF. Dengan PyMuPDF, pengguna dapat secara efisien melakukan tugas-tugas seperti membuka PDF, mengekstrak teks, gambar, dan tabel, memanipulasi properti halaman seperti rotasi dan pemotongan, membuat dokumen PDF baru, dan mengonversi halaman PDF menjadi gambar.

PyMuPDF mendukung beberapa fitur yang tercantum di bawah ini:

Membaca Dokumen PDF: PyMuPDF dapat membuka dan membaca dokumen PDF, memungkinkan Anda mengakses teks, gambar, dan konten lain di dalamnya.
Ekstraksi Teks: Anda dapat mengekstrak teks dari dokumen PDF, termasuk konten teks, font, dan informasi tata letak.
Ekstraksi Gambar: Anda dapat mengekstrak gambar dari dokumen PDF dalam berbagai format, seperti JPEG atau PNG.
Ekstraksi Tabel: Anda juga dapat mengekstrak tabel dari dokumen PDF.

Dalam ulasan ini, fokus utama kami adalah pada fitur ekstraksi dan penguraian pustaka. Untuk evaluasi mendalam tentang fitur pemisahan, penggabungan, dan pengelolaan halaman, silakan klik di sini.

Statistik GitHub

Nama:
Bahasa:
Bintang:
Garpu:
Lisensi:
Repositori terakhir diperbarui pada

Memulai dengan PyMuPDF

Anda memerlukan Python versi 3.8.0 atau yang lebih tinggi untuk menginstal dan menggunakan PyMuPDF. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal PyMuPDF di komputer Anda menggunakan pip dan lingkungan virtual.

Bahasa Indonesia: Sistem Operasi Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Bahasa Indonesia: MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Jendela


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Ekstrak Teks dari PDF

Anda dapat menggunakan pustaka PyMuPDF dalam Python untuk mengekstrak teks dari dokumen PDF dan melakukan analisis teks, seperti menghitung kata, hanya dengan menggunakan fungsi yang disediakan di pustaka tersebut, seperti yang ditunjukkan dalam kode di bawah ini:

Keluaran

Gambar di bawah menunjukkan teks yang diekstrak dan jumlah kata dalam berkas PDF:

Ekstrak Gambar dari PDF

Kita dapat menggunakan pustaka PyMuPDF untuk mengekstrak gambar dari dokumen PDF dalam Python. Potongan kode di bawah ini membuka berkas PDF yang ditentukan, mengekstrak gambar dari PDF, dan menyimpannya di direktori kerja saat ini:

Keluaran

Berikut ini adalah Gambar PNG yang diekstrak dari dokumen PDF

Ekstrak Tabel dari PDF

Kita juga dapat menggunakan pustaka PyMuPDF untuk memproses dokumen PDF dan mengekstrak tabel darinya. Periksa cuplikan kode di bawah ini yang membuka file PDF yang ditentukan dan mengekstrak tabel dari dokumen PDF:

Keluaran

Tangkapan layar di bawah ini menunjukkan tabel yang diekstrak dari dokumen PDF:

Masukkan Teks ke dalam PDF

Potongan kode Python di bawah ini menunjukkan penggunaan pustaka PyMuPDF untuk memasukkan teks ke dalam berkas PDF dan menyimpan PDF yang dimodifikasi sebagai text.pdf:

Keluaran

Teks yang dimasukkan menggunakan kode di atas disorot dalam kotak merah yang diberikan di bawah ini:

Pengenalan Teks PDF menggunakan OCR dengan PyMuPDF

We will perform OCR on the PDF file containing the following image:

Keluaran

Gambar di bawah ini menunjukkan teks yang diekstrak dari gambar yang ada dalam berkas PDF yang disediakan:

Kesimpulan

Singkatnya, PyMuPDF adalah alat profesional dengan beberapa kelebihan dan kekurangan yang jelas. Alat ini sangat bagus untuk tugas-tugas seperti OCR dan ekstraksi teks yang membuatnya berharga untuk menangani teks dalam PDF.

Namun, alat ini tidak begitu bagus dalam mengekstrak tabel dari PDF, khususnya jika PDF memiliki struktur yang kompleks atau jumlah halaman yang lebih banyak, yang mungkin menjadi kekurangan bagi sebagian pengguna. Selain itu, alat ini mungkin memerlukan pustaka tambahan seperti Pandas dan file data bahasa Tesseract OCR dalam situasi tertentu, yang menambah kerumitan penggunaannya. Meskipun ada keterbatasan ini, PyMuPDF tetap menjadi pilihan yang kuat untuk bekerja dengan teks dalam PDF.

Pustaka Parser PDF Python Sumber Terbuka

Cobalah pustaka Python sumber terbuka & gratis ini untuk mengurai, membaca, dan mengekstrak teks, gambar, tabel, dan konten lainnya dari dokumen PDF.

Apa itu PyMuPDF?

Statistik GitHub

Memulai dengan PyMuPDF

Bahasa Indonesia: Sistem Operasi Linux

Bahasa Indonesia: MacOS

Jendela

Ekstrak Teks dari PDF

Keluaran

Ekstrak Gambar dari PDF

Keluaran

Ekstrak Tabel dari PDF

Keluaran

Masukkan Teks ke dalam PDF

Keluaran

Pengenalan Teks PDF menggunakan OCR dengan PyMuPDF

Keluaran

Kesimpulan

Produk Sejenis