Perpustakaan Penghurai PDF Python Sumber Terbuka
Cuba pustaka Python Sumber percuma & terbuka ini untuk menghuraikan, membaca dan mengekstrak teks, imej, jadual & kandungan lain daripada dokumen PDF.
Apakah PyMuPDF?
PyMuPDF, juga dikenali sebagai Fitz, ialah perpustakaan Python sumber terbuka yang menyediakan set alat yang komprehensif untuk bekerja dengan fail PDF. Dengan PyMuPDF, pengguna boleh melaksanakan tugas dengan cekap seperti membuka PDF, mengekstrak teks, imej dan jadual, memanipulasi sifat halaman seperti putaran dan pemangkasan, mencipta dokumen PDF baharu dan menukar halaman PDF kepada imej.
PyMuPDF menyokong beberapa ciri yang disenaraikan di bawah:
- Bacaan Dokumen PDF: PyMuPDF boleh membuka dan membaca dokumen PDF, membolehkan anda mengakses teks, imej dan kandungan lain di dalamnya.
- Pengeluaran Teks: Anda boleh mengekstrak teks daripada dokumen PDF, termasuk kandungan teks, fon dan maklumat reka letak.
- Pengeluaran Imej: Anda boleh mengekstrak imej daripada dokumen PDF dalam pelbagai format, seperti JPEG atau PNG.
- Pengeluaran Jadual: Anda juga boleh mengekstrak jadual daripada dokumen PDF.
Dalam ulasan ini, tumpuan utama kami adalah pada ciri pengekstrakan dan penghuraian perpustakaan. Untuk penilaian yang mendalam tentang ciri pemisahan, penggabungan & pengurusan halaman, sila klik di sini.
Bermula dengan PyMuPDF
Anda memerlukan Python versi 3.8.0 atau lebih tinggi untuk memasang dan menggunakan PyMuPDF. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang PyMuPDF pada mesin anda menggunakan pip dan maya persekitaran.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
MacOS
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Windows
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
Ekstrak Teks daripada PDF
Anda boleh menggunakan perpustakaan PyMuPDF dalam Python untuk mengekstrak teks daripada dokumen PDF dan melakukan analisis teks, seperti mengira perkataan, hanya dengan menggunakan fungsi yang disediakan dalam perpustakaan, seperti yang ditunjukkan dalam kod di bawah:
Keluaran
Imej di bawah menunjukkan teks yang diekstrak dan bilangan perkataan dalam fail PDF:
Ekstrak Imej daripada PDF
Kita boleh menggunakan perpustakaan PyMuPDF untuk mengekstrak imej daripada dokumen PDF dalam Python. Di bawah coretan kod membuka fail PDF yang ditentukan, mengekstrak imej daripada PDF dan menyimpannya dalam direktori kerja semasa:
Keluaran
Berikut ialah Imej PNG yang diekstrak daripada dokumen PDF
Ekstrak Jadual daripada PDF
Kami juga boleh menggunakan perpustakaan PyMuPDF untuk memproses dokumen PDF dan mengekstrak jadual daripadanya. Semak coretan kod di bawah yang membuka fail PDF yang ditentukan dan mengekstrak jadual daripada dokumen PDF:
Keluaran
Tangkapan skrin di bawah menunjukkan jadual yang diekstrak daripada dokumen PDF:
Masukkan Teks ke dalam PDF
Di bawah coretan kod Python menunjukkan penggunaan pustaka PyMuPDF untuk memasukkan teks ke dalam fail PDF dan menyimpan PDF yang diubah suai sebagai text.pdf:
Keluaran
Teks yang dimasukkan menggunakan kod di atas diserlahkan dalam kotak merah yang diberikan di bawah:
Pengecaman Teks PDF menggunakan OCR dengan PyMuPDF
We will perform OCR on the PDF file containing the following image:Keluaran
Imej di bawah menunjukkan teks yang diekstrak daripada imej yang terdapat dalam fail PDF yang disediakan:
Kesimpulan
Ringkasnya, PyMuPDF ialah alat profesional dengan beberapa kekuatan dan kelemahan yang jelas. Ia bagus untuk tugasan seperti OCR dan pengekstrakan teks yang menjadikannya berharga untuk mengendalikan teks dalam PDF.
Walau bagaimanapun, ia tidak begitu baik untuk mengekstrak jadual daripada PDF terutamanya apabila PDF mempunyai struktur kompleks atau lebih banyak bilangan halaman, yang mungkin menjadi kelemahan bagi sesetengah pengguna. Selain itu, ia mungkin memerlukan perpustakaan tambahan seperti fail data bahasa OCR Pandas dan Tesseract dalam situasi tertentu, menambah kerumitan penggunaannya. Walaupun had ini, PyMuPDF kekal sebagai pilihan yang teguh untuk bekerja dengan teks dalam PDF.