Açık Kaynak Python PDF Ayrıştırıcı Kütüphanesi

PDF belgelerinden metin, resim, tablo ve diğer içerikleri ayrıştırmak, okumak ve çıkarmak için bu ücretsiz ve açık kaynaklı Python kütüphanesini deneyin.

PyMuPDF nedir?

Fitz olarak da bilinen PyMuPDF, PDF dosyalarıyla çalışmak için kapsamlı bir araç seti sağlayan açık kaynaklı bir Python kütüphanesidir. Kullanıcılar PyMuPDF ile PDF'leri açma, metin, resim ve tabloları çıkarma, döndürme ve kırpma gibi sayfa özelliklerini düzenleme, yeni PDF belgeleri oluşturma ve PDF sayfalarını resimlere dönüştürme gibi görevleri verimli bir şekilde gerçekleştirebilir.

PyMuPDF aşağıda listelenen çeşitli özellikleri destekler:

  • PDF Belge Okuma: PyMuPDF, PDF belgelerini açabilir ve okuyabilir, böylece içlerindeki metinlere, resimlere ve diğer içeriklere erişebilirsiniz.
  • Metin Çıkarımı: Metin içeriği, yazı tipleri ve düzen bilgileri dahil olmak üzere PDF belgelerinden metin çıkarabilirsiniz.
  • Görüntü Çıkarma: JPEG veya PNG gibi çeşitli formatlardaki PDF belgelerinden görüntü çıkarabilirsiniz.
  • Tablo Çıkarma: PDF belgelerinden tabloları da çıkarabilirsiniz.

Bu incelemede, birincil odak noktamız kütüphanenin çıkarma ve ayrıştırma özellikleri olacak. Bölme, birleştirme ve sayfa yönetimi özelliklerinin derinlemesine bir değerlendirmesi için lütfen buraya tıklayın.

GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

PyMuPDF'e Başlarken

PyMuPDF'i kurmak ve kullanmak için Python 3.8.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak PyMuPDF'i makinenize pip ve sanal ortam kullanarak kurun.

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac OS X


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Pencereler


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

PDF'den Metni Çıkar

Aşağıdaki kodda gösterildiği gibi, Python'daki PyMuPDF kütüphanesini kullanarak, kütüphanede sağlanan fonksiyonları kullanarak bir PDF belgesinden metin çıkarabilir ve kelime sayımı gibi metin analizleri yapabilirsiniz:

Çıktı

Aşağıdaki görselde PDF dosyasındaki çıkarılan metin ve kelime sayısı gösterilmektedir:

PDF'den Görüntüleri Çıkar

Python'da bir PDF belgesinden görüntüleri çıkarmak için PyMuPDF kütüphanesini kullanabiliriz. Aşağıdaki kod parçacığı belirtilen PDF dosyasını açar, PDF'den görüntüleri çıkarır ve bunları geçerli çalışma dizinine kaydeder:

Çıktı

Aşağıda PDF belgesinden çıkarılan PNG Görüntüsü bulunmaktadır

PDF'den Tabloları Çıkar

Ayrıca bir PDF belgesini işlemek ve ondan tablolar çıkarmak için PyMuPDF kütüphanesini de kullanabiliriz. Belirtilen PDF dosyasını açan ve PDF belgesinden tablolar çıkaran aşağıdaki kod parçacığını kontrol edin:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan tabloyu göstermektedir:

PDF'ye Metin Ekle

Aşağıdaki Python kod parçası, bir PDF dosyasına metin eklemek ve değiştirilmiş PDF'yi text.pdf olarak kaydetmek için PyMuPDF kütüphanesinin kullanımını göstermektedir:

Çıktı

Yukarıdaki kod kullanılarak eklenen metin aşağıda verilen kırmızı kutucuk içinde vurgulanmıştır:

PyMuPDF ile OCR kullanarak PDF Metin Tanıma

We will perform OCR on the PDF file containing the following image:

Çıktı

Aşağıdaki resim, sağlanan PDF dosyasında bulunan resimden çıkarılan metni göstermektedir:

Çözüm

Özetle, PyMuPDF bazı belirgin güçlü ve zayıf yönleri olan profesyonel bir araçtır. OCR ve metin çıkarma gibi görevler için harikadır ve bu da onu PDF'lerdeki metinleri işlemek için değerli kılar.

Ancak, özellikle PDF'ler karmaşık bir yapıya veya daha fazla sayfa sayısına sahip olduğunda PDF'lerden tabloları çıkarmada pek iyi değildir, bu bazı kullanıcılar için bir dezavantaj olabilir. Ayrıca, belirli durumlarda Pandas ve Tesseract OCR dil veri dosyaları gibi ek kütüphaneler gerektirebilir ve bu da kullanımına karmaşıklık katar. Bu sınırlamalara rağmen, PyMuPDF PDF'lerdeki metinlerle çalışmak için sağlam bir seçim olmaya devam ediyor.

Benzer Ürünler

 Türkçe