Açık Kaynak Python PDF Ayrıştırıcı Kütüphanesi

Ücretsiz Python kütüphanesini kullanarak PDF'leri ayrıştırın ve PDF belgelerinden metin, resim ve ekleri çıkarın.

Pypdf nedir?

Pypdf, çeşitli PDF işlemlerindeki yeterliliğiyle bilinen değerli bir açık kaynaklı Python kütüphanesidir. Bu kütüphane, PDF dosyalarıyla ilgili birçok görevi ve işlemi halledebilir ancak bu sayfada yalnızca PDF ayrıştırma özelliklerine odaklanacağız.

Pypdf'nin dikkat çekici ayrıştırma özellikleri şunlardır:

  • PDF Dosyalarını Okuma: Pypdf, PDF dosyalarını açmanıza, okumanıza/ayrıştırmanıza olanak tanır ve mevcut PDF belgelerinden metin ve diğer verileri çıkarmayı kolaylaştırır.
  • İçerik Çıkarımı: Gereksinimlerinize göre PDF belgelerinden metin, resim ve ekleri ayrıştırabilir ve çıkarabilirsiniz.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

pypdf ile Başlarken

Pypdf'yi kurmak ve kullanmak için Python 3.6.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak pip ve sanal ortam kullanarak pypdf'yi makinenize kurun.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Mac OS X


python -m venv venv
source venv/bin/activate
pip install pypdf

Pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

PDF'den Metni Çıkar

Please check below code snippet for example:

Çıktı

Aşağıdaki görüntü PDF dosyasından çıkarılan metni göstermektedir

PDF'den Görüntüleri Çıkar

PDF belgesinden resim çıkarmak için pypdf kütüphanesini kullanabiliriz. Resimleri çıkarmak için pillow adlı ek bir kütüphaneye ihtiyaç duyar. Her sayfada yineleme yapar, resimleri tanımlar ve orijinal adlarını koruyarak bunları ayrı resim dosyaları olarak kaydeder. Lütfen örnek olarak aşağıdaki kod parçacığını kontrol edin:

Çıktı

Yukarıdaki kod kullanılarak eklenen metin aşağıda verilen kırmızı kutuda vurgulanmıştır

PDF'den Ekleri Çıkar

pypdf kütüphanesi, bir PDF belgesinden ekleri çıkarmanıza ve kaydetmenize olanak tanır. Ekler ve içerikleri arasında yineleme yapar ve bunları ayrı dosyalara kaydeder. Lütfen örnek olarak aşağıdaki kod parçacığını kontrol edin:

Çözüm

Sonuç olarak, pypdf, PDF belgelerinden özellikleri çıkarmak için çok yönlü bir Python kütüphanesi olarak öne çıkıyor. Metin, resim ve ekleri ayrıştırmak için sağlam yetenekler sunarak, onu veri çıkarma, analiz ve belge yönetimi için değerli bir araç haline getiriyor.

Ancak, pypdf'nin metin çıkarırken zaman zaman kelimeler ve karakterler arasında ekstra boşluklar gibi, çıkarılan içeriğin doğruluğunu etkileyebilecek sorunlar ortaya çıkarabileceğini belirtmek önemlidir. Bu sınırlamaya rağmen, pypdf, özellikle metnin kesin biçimlendirmesinin birincil endişe olmadığı senaryolarda, PDF dosyalarını ayrıştırmak için değerli bir varlık olmaya devam etmektedir.

Benzer Ürünler

 Türkçe