Açık Kaynak Python PDF Ayrıştırıcı Kitaplığı
PDF belgelerinden metin, resim, tablo ve diğer içerikleri ayrıştırmak, okumak ve çıkarmak için bu ücretsiz ve açık Kaynak Python kitaplığını deneyin.
PyMuPDF nedir?
Fitz olarak da bilinen PyMuPDF, PDF dosyalarıyla çalışmak için kapsamlı bir araç seti sağlayan açık kaynaklı bir Python kitaplığıdır. PyMuPDF ile kullanıcılar, PDF'leri açma, metin, resim ve tablo çıkarma, döndürme ve kırpma gibi sayfa özelliklerini değiştirme, yeni PDF belgeleri oluşturma ve PDF sayfalarını resimlere dönüştürme gibi görevleri verimli bir şekilde gerçekleştirebilir.
PyMuPDF aşağıda listelenen çeşitli özellikleri destekler:
- PDF Belgesi Okuma: PyMuPDF, PDF belgelerini açabilir ve okuyabilir, böylece bunların içindeki metne, resimlere ve diğer içeriğe erişmenize olanak tanır.
- Metin Çıkarma: Metin içeriği, yazı tipleri ve düzen bilgileri de dahil olmak üzere PDF belgelerinden metin çıkarabilirsiniz.
- Görüntü Çıkarma: PDF belgelerinden JPEG veya PNG gibi çeşitli formatlardaki görüntüleri çıkarabilirsiniz.
- Tablo Çıkarma: Ayrıca PDF belgelerinden tabloları da çıkarabilirsiniz.
Bu incelemede öncelikli odak noktamız kütüphanenin çıkarma ve ayrıştırma özellikleri üzerinde olacaktır. Bölme, birleştirme ve sayfa yönetimi özelliklerinin ayrıntılı bir değerlendirmesi için lütfen burayı tıklayın.
PyMuPDF'e Başlarken
PyMuPDF'i kurmak ve kullanmak için Python 3.8.0 veya daha yüksek bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam
Linux
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
Mac os işletim sistemi
python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf
pencereler
python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf
PDF'den Metin Çıkart
Aşağıdaki kodda gösterildiği gibi, yalnızca kitaplıkta sağlanan işlevleri kullanarak bir PDF belgesinden metin çıkarmak ve sözcük sayma gibi metin analizleri gerçekleştirmek için Python'daki PyMuPDF kitaplığını kullanabilirsiniz:
Çıktı
Aşağıdaki resimde çıkartılan metin ve PDF dosyasındaki kelime sayısı gösterilmektedir:
PDF'den Görüntüleri Çıkartın
Python'da bir PDF belgesinden görüntü çıkarmak için PyMuPDF kütüphanesini kullanabiliriz. Aşağıdaki kod parçacığı belirtilen PDF dosyasını açar, görüntüleri PDF'den çıkarır ve bunları geçerli çalışma dizinine kaydeder:
Çıktı
PDF belgesinden çıkarılan PNG Görüntüsü aşağıdadır
Tabloları PDF'den Çıkartın
Bir PDF belgesini işlemek ve ondan tablolar çıkarmak için PyMuPDF kütüphanesini de kullanabiliriz. Belirtilen PDF dosyasını açan ve PDF belgesinden tabloları çıkaran aşağıdaki kod pasajını kontrol edin:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan tabloyu göstermektedir:
PDF'ye Metin Ekle
Aşağıdaki Python kod parçacığı, bir PDF dosyasına metin eklemek ve değiştirilen PDF'yi text.pdf olarak kaydetmek için PyMuPDF kütüphanesinin kullanımını göstermektedir:
Çıktı
Yukarıdaki kod kullanılarak eklenen metin, aşağıda verilen kırmızı kutuda vurgulanmıştır:
PyMuPDF ile OCR kullanarak PDF Metin Tanıma
We will perform OCR on the PDF file containing the following image:Çıktı
Aşağıdaki resim, sağlanan PDF dosyasında bulunan resimden çıkarılan metni göstermektedir:
Çözüm
Özetle, PyMuPDF bazı belirgin güçlü ve zayıf yönleri olan profesyonel bir araçtır. OCR ve metin çıkarma gibi görevler için harikadır, bu da onu PDF'lerdeki metinlerin işlenmesinde değerli kılar.
Ancak, özellikle PDF'ler karmaşık yapıya sahip olduğunda veya daha fazla sayıda sayfaya sahip olduğunda, PDF'lerden tablo çıkarmak pek iyi değildir; bu, bazı kullanıcılar için dezavantaj olabilir. Ayrıca belirli durumlarda Pandas ve Tesseract OCR dil veri dosyaları gibi ek kitaplıklara ihtiyaç duyabilir ve bu da kullanımına karmaşıklık katabilir. Bu sınırlamalara rağmen PyMuPDF, PDF'lerdeki metinlerle çalışmak için güçlü bir seçim olmaya devam ediyor.