Perpustakaan Parser PDF Python Sumber Terbuka
Coba pustaka Python Sumber terbuka & gratis ini untuk mengurai, membaca, dan mengekstrak teks, gambar, tabel & konten lainnya dari dokumen PDF.
Apa itu PyMuPDF?
PyMuPDF, juga dikenal sebagai Fitz, adalah pustaka Python sumber terbuka yang menyediakan seperangkat alat lengkap untuk bekerja dengan file PDF. Dengan PyMuPDF, pengguna dapat melakukan tugas secara efisien seperti membuka PDF, mengekstrak teks, gambar dan tabel, memanipulasi properti halaman seperti memutar dan memotong, membuat dokumen PDF baru, dan mengonversi halaman PDF menjadi gambar.
PyMuPDF mendukung beberapa fitur yang tercantum di bawah ini:
- Pembacaan Dokumen PDF: PyMuPDF dapat membuka dan membaca dokumen PDF, memungkinkan Anda mengakses teks, gambar, dan konten lain di dalamnya.
- Ekstraksi Teks: Anda dapat mengekstrak teks dari dokumen PDF, termasuk konten teks, font, dan informasi tata letak.
- Ekstraksi Gambar: Anda dapat mengekstrak gambar dari dokumen PDF dalam berbagai format, seperti JPEG atau PNG.
- Ekstraksi Tabel: Anda juga dapat mengekstrak tabel dari dokumen PDF.
Dalam ulasan ini, fokus utama kami adalah pada fitur ekstraksi dan penguraian perpustakaan. Untuk evaluasi mendalam tentang fitur pemisahan, penggabungan & pengelolaan halaman, silakan klik di sini.
Memulai dengan PyMuPDF
Anda memerlukan Python versi 3.8.0 atau lebih tinggi untuk menginstal dan menggunakan PyMuPDF. Jadi, pertama-tama instal Python lalu gunakan perintah di bawah ini untuk menginstal PyMuPDF di mesin Anda menggunakan pip dan lingkungan virtual.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
macOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
jendela
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Ekstrak Teks dari PDF
Anda dapat menggunakan pustaka PyMuPDF dengan Python untuk mengekstrak teks dari dokumen PDF dan melakukan analisis teks, seperti menghitung kata, hanya dengan menggunakan fungsi yang disediakan di pustaka, seperti yang ditunjukkan pada kode di bawah ini:
Keluaran
Gambar di bawah menunjukkan teks yang diekstrak dan jumlah kata dalam file PDF:
Ekstrak Gambar dari PDF
Kita dapat menggunakan perpustakaan PyMuPDF untuk mengekstrak gambar dari dokumen PDF dengan Python. Cuplikan kode di bawah ini membuka file PDF yang ditentukan, mengekstrak gambar dari PDF dan menyimpannya di direktori kerja saat ini:
Keluaran
Berikut ini adalah Gambar PNG yang diekstrak dari dokumen PDF
Ekstrak Tabel dari PDF
Kita juga dapat menggunakan perpustakaan PyMuPDF untuk memproses dokumen PDF dan mengekstrak tabel darinya. Periksa cuplikan kode di bawah ini yang membuka file PDF yang ditentukan dan mengekstrak tabel dari dokumen PDF:
Keluaran
Tangkapan layar di bawah menunjukkan tabel yang diekstraksi dari dokumen PDF:
Masukkan Teks ke dalam PDF
Cuplikan kode Python di bawah ini menunjukkan penggunaan pustaka PyMuPDF untuk menyisipkan teks ke dalam file PDF dan menyimpan PDF yang dimodifikasi sebagai text.pdf:
Keluaran
Teks yang disisipkan menggunakan kode di atas disorot dalam kotak merah di bawah ini:
Pengenalan Teks PDF menggunakan OCR dengan PyMuPDF
We will perform OCR on the PDF file containing the following image:Keluaran
Gambar di bawah menunjukkan teks yang diekstraksi dari gambar yang ada dalam file PDF yang disediakan:
Kesimpulan
Singkatnya, PyMuPDF adalah alat profesional dengan beberapa kekuatan dan kelemahan yang jelas. Ini bagus untuk tugas-tugas seperti OCR dan ekstraksi teks yang membuatnya berharga untuk menangani teks dalam PDF.
Namun, ini tidak begitu baik dalam mengekstraksi tabel dari PDF khususnya ketika PDF memiliki struktur yang rumit atau jumlah halaman yang lebih banyak, yang mungkin menjadi kelemahan bagi sebagian pengguna. Selain itu, ini mungkin memerlukan pustaka tambahan seperti file data bahasa OCR Pandas dan Tesseract dalam situasi tertentu, sehingga menambah kerumitan dalam penggunaannya. Terlepas dari keterbatasan ini, PyMuPDF tetap menjadi pilihan tepat untuk bekerja dengan teks dalam PDF.