Açık Kaynak Python PDF Ayrıştırıcı Kitaplığı

Ücretsiz Python kitaplığını kullanarak PDF'yi ayrıştırın ve PDF belgelerinden metin, resim ve ekleri çıkarın.

Pypdf nedir?

Pypdf, çeşitli PDF işlemlerinde uzmanlığıyla bilinen, değerli bir açık kaynaklı Python kütüphanesidir. Bu kitaplık, PDF dosyalarıyla ilgili birçok görevi ve işlemi gerçekleştirebilir ancak bu sayfada yalnızca PDF ayrıştırma özelliklerine odaklanacağız.

Pypdf'in dikkate değer ayrıştırma özellikleri şunları içerir:

  • PDF Dosyalarını Okumak: Pypdf, PDF dosyalarını açmanıza ve okumanıza/ayrıştırmanıza olanak tanıyarak mevcut PDF belgelerinden metin ve diğer verileri çıkarmayı kolaylaştırır.
  • İçerik Çıkarma: İhtiyacınıza göre PDF belgelerinden metin, resim ve ekleri ayrıştırabilir ve çıkarabilirsiniz.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

Pypdf'e Başlarken

Pypdf'i kurmak ve kullanmak için Python 3.6.0 veya daha yeni bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam

Linux


python3 -m venv venv
source venv/bin/activate
pip install pypdf

Mac os işletim sistemi


python -m venv venv
source venv/bin/activate
pip install pypdf

pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

PDF'den Metin Çıkart

Please check below code snippet for example:

Çıktı

Aşağıdaki resimde PDF dosyasından çıkarılan metin gösterilmektedir

PDF'den Görüntüleri Çıkartın

Bir PDF belgesinden resim çıkarmak için pypdf kütüphanesini kullanabiliriz. Görüntüleri çıkarmak için yastık adında ek bir kitaplık gerekir. Her sayfada yinelenir, görüntüleri tanımlar ve orijinal adlarını koruyarak bunları ayrı görüntü dosyaları olarak kaydeder. Lütfen aşağıdaki kod parçacığını kontrol edin, örneğin:

Çıktı

Yukarıdaki kod kullanılarak eklenen metin, aşağıda verilen kırmızı kutuda vurgulanmıştır.

Ekleri PDF'den Çıkarın

pypdf kütüphanesi, bir PDF belgesinden eklerin çıkarılmasına ve kaydedilmesine olanak tanır. Ekleri ve içeriklerini yineler ve bunları ayrı dosyalara kaydeder. Lütfen aşağıdaki kod parçacığını kontrol edin, örneğin:

Çözüm

Sonuç olarak pypdf, PDF belgelerinden özellik çıkarmak için çok yönlü bir Python kütüphanesi olarak öne çıkıyor. Metin, resim ve eklerin ayrıştırılmasına yönelik güçlü yetenekler sunarak veri çıkarma, analiz ve belge yönetimi için değerli bir araç haline gelir.

Bununla birlikte, pypdf'nin metin çıkartılırken ara sıra, kelimeler ve karakterler arasında ekstra boşluklar gibi, çıkarılan içeriğin doğruluğunu etkileyebilecek sorunlara yol açabileceğini unutmamak önemlidir. Bu sınırlamaya rağmen, pypdf, özellikle metnin kesin biçimlendirmesinin öncelikli sorun olmadığı senaryolarda, PDF dosyalarını ayrıştırmak için değerli bir varlık olmaya devam etmektedir.

Benzer Ürünler

 Türkçe