Açık Kaynak Python PDF Ayrıştırıcı Kütüphanesi
PDF belgelerinden metin, resim, tablo ve diğer içerikleri ayrıştırmak, okumak ve çıkarmak için bu ücretsiz ve açık kaynaklı Python kütüphanesini deneyin.
PyMuPDF nedir?
Fitz olarak da bilinen PyMuPDF, PDF dosyalarıyla çalışmak için kapsamlı bir araç seti sağlayan açık kaynaklı bir Python kütüphanesidir. Kullanıcılar PyMuPDF ile PDF'leri açma, metin, resim ve tabloları çıkarma, döndürme ve kırpma gibi sayfa özelliklerini düzenleme, yeni PDF belgeleri oluşturma ve PDF sayfalarını resimlere dönüştürme gibi görevleri verimli bir şekilde gerçekleştirebilir.
PyMuPDF aşağıda listelenen çeşitli özellikleri destekler:
- PDF Belge Okuma: PyMuPDF, PDF belgelerini açabilir ve okuyabilir, böylece içlerindeki metinlere, resimlere ve diğer içeriklere erişebilirsiniz.
- Metin Çıkarımı: Metin içeriği, yazı tipleri ve düzen bilgileri dahil olmak üzere PDF belgelerinden metin çıkarabilirsiniz.
- Görüntü Çıkarma: JPEG veya PNG gibi çeşitli formatlardaki PDF belgelerinden görüntü çıkarabilirsiniz.
- Tablo Çıkarma: PDF belgelerinden tabloları da çıkarabilirsiniz.
Bu incelemede, birincil odak noktamız kütüphanenin çıkarma ve ayrıştırma özellikleri olacak. Bölme, birleştirme ve sayfa yönetimi özelliklerinin derinlemesine bir değerlendirmesi için lütfen buraya tıklayın.
PyMuPDF'e Başlarken
PyMuPDF'i kurmak ve kullanmak için Python 3.8.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak PyMuPDF'i makinenize pip ve sanal ortam kullanarak kurun.
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac OS X
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Pencereler
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
PDF'den Metni Çıkar
Aşağıdaki kodda gösterildiği gibi, Python'daki PyMuPDF kütüphanesini kullanarak, kütüphanede sağlanan fonksiyonları kullanarak bir PDF belgesinden metin çıkarabilir ve kelime sayımı gibi metin analizleri yapabilirsiniz:
Çıktı
Aşağıdaki görselde PDF dosyasındaki çıkarılan metin ve kelime sayısı gösterilmektedir:
PDF'den Görüntüleri Çıkar
Python'da bir PDF belgesinden görüntüleri çıkarmak için PyMuPDF kütüphanesini kullanabiliriz. Aşağıdaki kod parçacığı belirtilen PDF dosyasını açar, PDF'den görüntüleri çıkarır ve bunları geçerli çalışma dizinine kaydeder:
Çıktı
Aşağıda PDF belgesinden çıkarılan PNG Görüntüsü bulunmaktadır
PDF'den Tabloları Çıkar
Ayrıca bir PDF belgesini işlemek ve ondan tablolar çıkarmak için PyMuPDF kütüphanesini de kullanabiliriz. Belirtilen PDF dosyasını açan ve PDF belgesinden tablolar çıkaran aşağıdaki kod parçacığını kontrol edin:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan tabloyu göstermektedir:
PDF'ye Metin Ekle
Aşağıdaki Python kod parçası, bir PDF dosyasına metin eklemek ve değiştirilmiş PDF'yi text.pdf olarak kaydetmek için PyMuPDF kütüphanesinin kullanımını göstermektedir:
Çıktı
Yukarıdaki kod kullanılarak eklenen metin aşağıda verilen kırmızı kutucuk içinde vurgulanmıştır:
PyMuPDF ile OCR kullanarak PDF Metin Tanıma
We will perform OCR on the PDF file containing the following image:Çıktı
Aşağıdaki resim, sağlanan PDF dosyasında bulunan resimden çıkarılan metni göstermektedir:
Çözüm
Özetle, PyMuPDF bazı belirgin güçlü ve zayıf yönleri olan profesyonel bir araçtır. OCR ve metin çıkarma gibi görevler için harikadır ve bu da onu PDF'lerdeki metinleri işlemek için değerli kılar.
Ancak, özellikle PDF'ler karmaşık bir yapıya veya daha fazla sayfa sayısına sahip olduğunda PDF'lerden tabloları çıkarmada pek iyi değildir, bu bazı kullanıcılar için bir dezavantaj olabilir. Ayrıca, belirli durumlarda Pandas ve Tesseract OCR dil veri dosyaları gibi ek kütüphaneler gerektirebilir ve bu da kullanımına karmaşıklık katar. Bu sınırlamalara rağmen, PyMuPDF PDF'lerdeki metinlerle çalışmak için sağlam bir seçim olmaya devam ediyor.