Açık Kaynak Python PDF Ayrıştırıcı Kitaplığı
PDF'leri ayrıştırmak ve biçimlendirme bilgileriyle metni çıkarmak için ücretsiz ve Açık kaynaklı Python kitaplığı.
pdfminer.six nedir?
Pdfminer.six, PDF belgelerinden veri çıkarmaya yönelik açık kaynaklı bir Python kitaplığı ve araç setidir. Veri analizi için PDF belgelerini ayrıştırabilir ve PDF'lerden metin, içindekiler tablosu ve etiketli içerikleri vb. çıkarabilirsiniz.
İşte ayrıştırma özelliklerinin kısa bir listesi:
- Metin Çıkarma: Metin rengi, yazı tipi ve konum vb. gibi düzen ve biçimlendirme bilgileri dahil olmak üzere PDF belgelerinden metin içeriğini çıkarın.
- Yazı Tipi Bilgisi Çıkarma: PDF belgelerinde kullanılan yazı tipleri hakkında bilgi çıkarın.
pdfminer.six'e Başlarken
Pypdf'i kurmak ve kullanmak için Python 3.6.0 veya daha yeni bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac os işletim sistemi
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
pencereler
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF Belgesinden Metin Çıkarma
Aşağıdaki kod parçacığında gösterildiği gibi extract_text işlevini kullanarak bir PDF belgesinden metin çıkarmak için Python'daki pdfminer.six kitaplığını kullanabilirsiniz:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan metni göstermektedir:
Yazı Tipi Bilgilerini PDF Belgesinden Çıkartın
Ayrıca, PDF'deki her sayfanın düzen öğelerini yineleyerek, PDF Belgesinde kullanılan yazı tipleri hakkındaki yazı tipi adı ve yazı tipi boyutu gibi bilgileri de çıkarabiliriz. Örneğin, aşağıdaki kod parçacığını kontrol edin:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan yazı tipi bilgilerini gösterir:
Çözüm
Sonuç olarak, pdfminer.six, PDF belgelerinden metin ve diğer bilgileri çıkarma yeteneklerine sahiptir ancak PDF'lerden resim ve tablo çıkarma gibi işlevlerden yoksundur.
pdfminer.six kitaplığının PDF sayfalarını görüntü olarak çıkarmayı desteklediğini ancak pdfminer.six tarafından desteklenmeyen PDF belgelerine gömülü görüntülerin çıkarılmasından farklı olduğunu unutmamak önemlidir. Ancak geliştiriciler, veri analizi ihtiyaçları için metin çıkarmak amacıyla Python'da PDF'leri ayrıştırma konusunda yine de ona güvenebilirler.