Pustaka Parser PDF Python Sumber Terbuka
Cobalah pustaka Python sumber terbuka & gratis ini untuk mengurai, membaca, dan mengekstrak teks, gambar, tabel, dan konten lainnya dari dokumen PDF.
Apa itu PyMuPDF?
PyMuPDF, yang juga dikenal sebagai Fitz, adalah pustaka Python sumber terbuka yang menyediakan seperangkat alat lengkap untuk bekerja dengan berkas PDF. Dengan PyMuPDF, pengguna dapat secara efisien melakukan tugas-tugas seperti membuka PDF, mengekstrak teks, gambar, dan tabel, memanipulasi properti halaman seperti rotasi dan pemotongan, membuat dokumen PDF baru, dan mengonversi halaman PDF menjadi gambar.
PyMuPDF mendukung beberapa fitur yang tercantum di bawah ini:
- Membaca Dokumen PDF: PyMuPDF dapat membuka dan membaca dokumen PDF, memungkinkan Anda mengakses teks, gambar, dan konten lain di dalamnya.
- Ekstraksi Teks: Anda dapat mengekstrak teks dari dokumen PDF, termasuk konten teks, font, dan informasi tata letak.
- Ekstraksi Gambar: Anda dapat mengekstrak gambar dari dokumen PDF dalam berbagai format, seperti JPEG atau PNG.
- Ekstraksi Tabel: Anda juga dapat mengekstrak tabel dari dokumen PDF.
Dalam ulasan ini, fokus utama kami adalah pada fitur ekstraksi dan penguraian pustaka. Untuk evaluasi mendalam tentang fitur pemisahan, penggabungan, dan pengelolaan halaman, silakan klik di sini.
Memulai dengan PyMuPDF
Anda memerlukan Python versi 3.8.0 atau yang lebih tinggi untuk menginstal dan menggunakan PyMuPDF. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal PyMuPDF di komputer Anda menggunakan pip dan lingkungan virtual.
Bahasa Indonesia: Sistem Operasi Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Bahasa Indonesia: MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Jendela
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Ekstrak Teks dari PDF
Anda dapat menggunakan pustaka PyMuPDF dalam Python untuk mengekstrak teks dari dokumen PDF dan melakukan analisis teks, seperti menghitung kata, hanya dengan menggunakan fungsi yang disediakan di pustaka tersebut, seperti yang ditunjukkan dalam kode di bawah ini:
Keluaran
Gambar di bawah menunjukkan teks yang diekstrak dan jumlah kata dalam berkas PDF:
Ekstrak Gambar dari PDF
Kita dapat menggunakan pustaka PyMuPDF untuk mengekstrak gambar dari dokumen PDF dalam Python. Potongan kode di bawah ini membuka berkas PDF yang ditentukan, mengekstrak gambar dari PDF, dan menyimpannya di direktori kerja saat ini:
Keluaran
Berikut ini adalah Gambar PNG yang diekstrak dari dokumen PDF
Ekstrak Tabel dari PDF
Kita juga dapat menggunakan pustaka PyMuPDF untuk memproses dokumen PDF dan mengekstrak tabel darinya. Periksa cuplikan kode di bawah ini yang membuka file PDF yang ditentukan dan mengekstrak tabel dari dokumen PDF:
Keluaran
Tangkapan layar di bawah ini menunjukkan tabel yang diekstrak dari dokumen PDF:
Masukkan Teks ke dalam PDF
Potongan kode Python di bawah ini menunjukkan penggunaan pustaka PyMuPDF untuk memasukkan teks ke dalam berkas PDF dan menyimpan PDF yang dimodifikasi sebagai text.pdf:
Keluaran
Teks yang dimasukkan menggunakan kode di atas disorot dalam kotak merah yang diberikan di bawah ini:
Pengenalan Teks PDF menggunakan OCR dengan PyMuPDF
We will perform OCR on the PDF file containing the following image:Keluaran
Gambar di bawah ini menunjukkan teks yang diekstrak dari gambar yang ada dalam berkas PDF yang disediakan:
Kesimpulan
Singkatnya, PyMuPDF adalah alat profesional dengan beberapa kelebihan dan kekurangan yang jelas. Alat ini sangat bagus untuk tugas-tugas seperti OCR dan ekstraksi teks yang membuatnya berharga untuk menangani teks dalam PDF.
Namun, alat ini tidak begitu bagus dalam mengekstrak tabel dari PDF, khususnya jika PDF memiliki struktur yang kompleks atau jumlah halaman yang lebih banyak, yang mungkin menjadi kekurangan bagi sebagian pengguna. Selain itu, alat ini mungkin memerlukan pustaka tambahan seperti Pandas dan file data bahasa Tesseract OCR dalam situasi tertentu, yang menambah kerumitan penggunaannya. Meskipun ada keterbatasan ini, PyMuPDF tetap menjadi pilihan yang kuat untuk bekerja dengan teks dalam PDF.