Perpustakaan Penghurai PDF Python Sumber Terbuka

Cuba pustaka Python Sumber percuma & terbuka ini untuk menghuraikan, membaca dan mengekstrak teks, imej, jadual & kandungan lain daripada dokumen PDF.

Apakah PyMuPDF?

PyMuPDF, juga dikenali sebagai Fitz, ialah perpustakaan Python sumber terbuka yang menyediakan set alat yang komprehensif untuk bekerja dengan fail PDF. Dengan PyMuPDF, pengguna boleh melaksanakan tugas dengan cekap seperti membuka PDF, mengekstrak teks, imej dan jadual, memanipulasi sifat halaman seperti putaran dan pemangkasan, mencipta dokumen PDF baharu dan menukar halaman PDF kepada imej.

PyMuPDF menyokong beberapa ciri yang disenaraikan di bawah:

Bacaan Dokumen PDF: PyMuPDF boleh membuka dan membaca dokumen PDF, membolehkan anda mengakses teks, imej dan kandungan lain di dalamnya.
Pengeluaran Teks: Anda boleh mengekstrak teks daripada dokumen PDF, termasuk kandungan teks, fon dan maklumat reka letak.
Pengeluaran Imej: Anda boleh mengekstrak imej daripada dokumen PDF dalam pelbagai format, seperti JPEG atau PNG.
Pengeluaran Jadual: Anda juga boleh mengekstrak jadual daripada dokumen PDF.

Dalam ulasan ini, tumpuan utama kami adalah pada ciri pengekstrakan dan penghuraian perpustakaan. Untuk penilaian yang mendalam tentang ciri pemisahan, penggabungan & pengurusan halaman, sila klik di sini.

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Bermula dengan PyMuPDF

Anda memerlukan Python versi 3.8.0 atau lebih tinggi untuk memasang dan menggunakan PyMuPDF. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang PyMuPDF pada mesin anda menggunakan pip dan maya persekitaran.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

MacOS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Windows


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

Ekstrak Teks daripada PDF

Anda boleh menggunakan perpustakaan PyMuPDF dalam Python untuk mengekstrak teks daripada dokumen PDF dan melakukan analisis teks, seperti mengira perkataan, hanya dengan menggunakan fungsi yang disediakan dalam perpustakaan, seperti yang ditunjukkan dalam kod di bawah:

Keluaran

Imej di bawah menunjukkan teks yang diekstrak dan bilangan perkataan dalam fail PDF:

Ekstrak Imej daripada PDF

Kita boleh menggunakan perpustakaan PyMuPDF untuk mengekstrak imej daripada dokumen PDF dalam Python. Di bawah coretan kod membuka fail PDF yang ditentukan, mengekstrak imej daripada PDF dan menyimpannya dalam direktori kerja semasa:

Keluaran

Berikut ialah Imej PNG yang diekstrak daripada dokumen PDF

Ekstrak Jadual daripada PDF

Kami juga boleh menggunakan perpustakaan PyMuPDF untuk memproses dokumen PDF dan mengekstrak jadual daripadanya. Semak coretan kod di bawah yang membuka fail PDF yang ditentukan dan mengekstrak jadual daripada dokumen PDF:

Keluaran

Tangkapan skrin di bawah menunjukkan jadual yang diekstrak daripada dokumen PDF:

Masukkan Teks ke dalam PDF

Di bawah coretan kod Python menunjukkan penggunaan pustaka PyMuPDF untuk memasukkan teks ke dalam fail PDF dan menyimpan PDF yang diubah suai sebagai text.pdf:

Keluaran

Teks yang dimasukkan menggunakan kod di atas diserlahkan dalam kotak merah yang diberikan di bawah:

Pengecaman Teks PDF menggunakan OCR dengan PyMuPDF

We will perform OCR on the PDF file containing the following image:

Keluaran

Imej di bawah menunjukkan teks yang diekstrak daripada imej yang terdapat dalam fail PDF yang disediakan:

Kesimpulan

Ringkasnya, PyMuPDF ialah alat profesional dengan beberapa kekuatan dan kelemahan yang jelas. Ia bagus untuk tugasan seperti OCR dan pengekstrakan teks yang menjadikannya berharga untuk mengendalikan teks dalam PDF.

Walau bagaimanapun, ia tidak begitu baik untuk mengekstrak jadual daripada PDF terutamanya apabila PDF mempunyai struktur kompleks atau lebih banyak bilangan halaman, yang mungkin menjadi kelemahan bagi sesetengah pengguna. Selain itu, ia mungkin memerlukan perpustakaan tambahan seperti fail data bahasa OCR Pandas dan Tesseract dalam situasi tertentu, menambah kerumitan penggunaannya. Walaupun had ini, PyMuPDF kekal sebagai pilihan yang teguh untuk bekerja dengan teks dalam PDF.

Perpustakaan Penghurai PDF Python Sumber Terbuka

Cuba pustaka Python Sumber percuma & terbuka ini untuk menghuraikan, membaca dan mengekstrak teks, imej, jadual & kandungan lain daripada dokumen PDF.

Apakah PyMuPDF?

Statistik GitHub

Bermula dengan PyMuPDF

Linux

MacOS

Windows

Ekstrak Teks daripada PDF

Keluaran

Ekstrak Imej daripada PDF

Keluaran

Ekstrak Jadual daripada PDF

Keluaran

Masukkan Teks ke dalam PDF

Keluaran

Pengecaman Teks PDF menggunakan OCR dengan PyMuPDF

Keluaran

Kesimpulan

Produk Serupa