Açık Kaynak Python PDF Ayrıştırıcı Kitaplığı

PDF belgelerinden metin, resim, tablo ve diğer içerikleri ayrıştırmak, okumak ve çıkarmak için bu ücretsiz ve açık Kaynak Python kitaplığını deneyin.

PyMuPDF nedir?

Fitz olarak da bilinen PyMuPDF, PDF dosyalarıyla çalışmak için kapsamlı bir araç seti sağlayan açık kaynaklı bir Python kitaplığıdır. PyMuPDF ile kullanıcılar, PDF'leri açma, metin, resim ve tablo çıkarma, döndürme ve kırpma gibi sayfa özelliklerini değiştirme, yeni PDF belgeleri oluşturma ve PDF sayfalarını resimlere dönüştürme gibi görevleri verimli bir şekilde gerçekleştirebilir.

PyMuPDF aşağıda listelenen çeşitli özellikleri destekler:

  • PDF Belgesi Okuma: PyMuPDF, PDF belgelerini açabilir ve okuyabilir, böylece bunların içindeki metne, resimlere ve diğer içeriğe erişmenize olanak tanır.
  • Metin Çıkarma: Metin içeriği, yazı tipleri ve düzen bilgileri de dahil olmak üzere PDF belgelerinden metin çıkarabilirsiniz.
  • Görüntü Çıkarma: PDF belgelerinden JPEG veya PNG gibi çeşitli formatlardaki görüntüleri çıkarabilirsiniz.
  • Tablo Çıkarma: Ayrıca PDF belgelerinden tabloları da çıkarabilirsiniz.

Bu incelemede öncelikli odak noktamız kütüphanenin çıkarma ve ayrıştırma özellikleri üzerinde olacaktır. Bölme, birleştirme ve sayfa yönetimi özelliklerinin ayrıntılı bir değerlendirmesi için lütfen burayı tıklayın.

GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

PyMuPDF'e Başlarken

PyMuPDF'i kurmak ve kullanmak için Python 3.8.0 veya daha yüksek bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam

Linux


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

Mac os işletim sistemi


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

pencereler


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf  

PDF'den Metin Çıkart

Aşağıdaki kodda gösterildiği gibi, yalnızca kitaplıkta sağlanan işlevleri kullanarak bir PDF belgesinden metin çıkarmak ve sözcük sayma gibi metin analizleri gerçekleştirmek için Python'daki PyMuPDF kitaplığını kullanabilirsiniz:

Çıktı

Aşağıdaki resimde çıkartılan metin ve PDF dosyasındaki kelime sayısı gösterilmektedir:

PDF'den Görüntüleri Çıkartın

Python'da bir PDF belgesinden görüntü çıkarmak için PyMuPDF kütüphanesini kullanabiliriz. Aşağıdaki kod parçacığı belirtilen PDF dosyasını açar, görüntüleri PDF'den çıkarır ve bunları geçerli çalışma dizinine kaydeder:

Çıktı

PDF belgesinden çıkarılan PNG Görüntüsü aşağıdadır

Tabloları PDF'den Çıkartın

Bir PDF belgesini işlemek ve ondan tablolar çıkarmak için PyMuPDF kütüphanesini de kullanabiliriz. Belirtilen PDF dosyasını açan ve PDF belgesinden tabloları çıkaran aşağıdaki kod pasajını kontrol edin:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan tabloyu göstermektedir:

PDF'ye Metin Ekle

Aşağıdaki Python kod parçacığı, bir PDF dosyasına metin eklemek ve değiştirilen PDF'yi text.pdf olarak kaydetmek için PyMuPDF kütüphanesinin kullanımını göstermektedir:

Çıktı

Yukarıdaki kod kullanılarak eklenen metin, aşağıda verilen kırmızı kutuda vurgulanmıştır:

PyMuPDF ile OCR kullanarak PDF Metin Tanıma

We will perform OCR on the PDF file containing the following image:

Çıktı

Aşağıdaki resim, sağlanan PDF dosyasında bulunan resimden çıkarılan metni göstermektedir:

Çözüm

Özetle, PyMuPDF bazı belirgin güçlü ve zayıf yönleri olan profesyonel bir araçtır. OCR ve metin çıkarma gibi görevler için harikadır, bu da onu PDF'lerdeki metinlerin işlenmesinde değerli kılar.

Ancak, özellikle PDF'ler karmaşık yapıya sahip olduğunda veya daha fazla sayıda sayfaya sahip olduğunda, PDF'lerden tablo çıkarmak pek iyi değildir; bu, bazı kullanıcılar için dezavantaj olabilir. Ayrıca belirli durumlarda Pandas ve Tesseract OCR dil veri dosyaları gibi ek kitaplıklara ihtiyaç duyabilir ve bu da kullanımına karmaşıklık katabilir. Bu sınırlamalara rağmen PyMuPDF, PDF'lerdeki metinlerle çalışmak için güçlü bir seçim olmaya devam ediyor.

Benzer Ürünler

 Türkçe