Açık Kaynak Python PDF Ayrıştırıcı Kütüphanesi
Ücretsiz Python kütüphanesini kullanarak PDF'leri ayrıştırın ve PDF belgelerinden metin, resim ve ekleri çıkarın.
Pypdf nedir?
Pypdf, çeşitli PDF işlemlerindeki yeterliliğiyle bilinen değerli bir açık kaynaklı Python kütüphanesidir. Bu kütüphane, PDF dosyalarıyla ilgili birçok görevi ve işlemi halledebilir ancak bu sayfada yalnızca PDF ayrıştırma özelliklerine odaklanacağız.
Pypdf'nin dikkat çekici ayrıştırma özellikleri şunlardır:
- PDF Dosyalarını Okuma: Pypdf, PDF dosyalarını açmanıza, okumanıza/ayrıştırmanıza olanak tanır ve mevcut PDF belgelerinden metin ve diğer verileri çıkarmayı kolaylaştırır.
- İçerik Çıkarımı: Gereksinimlerinize göre PDF belgelerinden metin, resim ve ekleri ayrıştırabilir ve çıkarabilirsiniz.
pypdf ile Başlarken
Pypdf'yi kurmak ve kullanmak için Python 3.6.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak pip ve sanal ortam kullanarak pypdf'yi makinenize kurun.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pypdf
Mac OS X
python -m venv venv
source venv/bin/activate
pip install pypdf
Pencereler
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
PDF'den Metni Çıkar
Please check below code snippet for example:Çıktı
Aşağıdaki görüntü PDF dosyasından çıkarılan metni göstermektedir
PDF'den Görüntüleri Çıkar
PDF belgesinden resim çıkarmak için pypdf kütüphanesini kullanabiliriz. Resimleri çıkarmak için pillow adlı ek bir kütüphaneye ihtiyaç duyar. Her sayfada yineleme yapar, resimleri tanımlar ve orijinal adlarını koruyarak bunları ayrı resim dosyaları olarak kaydeder. Lütfen örnek olarak aşağıdaki kod parçacığını kontrol edin:
Çıktı
Yukarıdaki kod kullanılarak eklenen metin aşağıda verilen kırmızı kutuda vurgulanmıştır
PDF'den Ekleri Çıkar
pypdf kütüphanesi, bir PDF belgesinden ekleri çıkarmanıza ve kaydetmenize olanak tanır. Ekler ve içerikleri arasında yineleme yapar ve bunları ayrı dosyalara kaydeder. Lütfen örnek olarak aşağıdaki kod parçacığını kontrol edin:
Çözüm
Sonuç olarak, pypdf, PDF belgelerinden özellikleri çıkarmak için çok yönlü bir Python kütüphanesi olarak öne çıkıyor. Metin, resim ve ekleri ayrıştırmak için sağlam yetenekler sunarak, onu veri çıkarma, analiz ve belge yönetimi için değerli bir araç haline getiriyor.
Ancak, pypdf'nin metin çıkarırken zaman zaman kelimeler ve karakterler arasında ekstra boşluklar gibi, çıkarılan içeriğin doğruluğunu etkileyebilecek sorunlar ortaya çıkarabileceğini belirtmek önemlidir. Bu sınırlamaya rağmen, pypdf, özellikle metnin kesin biçimlendirmesinin birincil endişe olmadığı senaryolarda, PDF dosyalarını ayrıştırmak için değerli bir varlık olmaya devam etmektedir.