Açık Kaynak Python PDF Ayrıştırıcı Kütüphanesi

PDF'leri ayrıştırmak ve biçimlendirme bilgileriyle birlikte metni çıkarmak için ücretsiz ve açık kaynaklı Python kütüphanesi.

pdfminer.six nedir?

Pdfminer.six, PDF belgelerinden veri çıkarmak için açık kaynaklı bir Python kütüphanesi ve araç setidir. PDF belgelerini ayrıştırabilir ve veri analizi için PDF'lerden metin, içerik tablosu ve etiketli içerik vb. çıkarabilirsiniz.

İşte ayrıştırma özelliklerinin kısa bir listesi:

  • Metin Çıkarımı: PDF belgelerinden düzen ve biçimlendirme bilgileri (metin rengi, yazı tipi ve konum vb.) dahil olmak üzere metin içeriğini çıkarın.
  • Yazı Tipi Bilgisi Çıkarımı: PDF belgelerinde kullanılan yazı tipleri hakkında bilgi çıkarın.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

pdfminer.six ile Başlarken

Pypdf'yi kurmak ve kullanmak için Python 3.6.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak pip ve sanal ortam kullanarak pypdf'yi makinenize kurun.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS X


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF Belgesinden Metin Çıkar

Aşağıdaki kod parçacığında gösterildiği gibi extract_text fonksiyonunu kullanarak Python'daki pdfminer.six kütüphanesini kullanarak bir PDF belgesinden metin çıkarabilirsiniz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan metni göstermektedir:

PDF Belgesinden Yazı Tipi Bilgilerini Çıkar

Ayrıca PDF'deki her sayfanın düzen öğelerini yineleyerek PDF Belgesinde kullanılan yazı tipleri hakkında yazı tipi adı ve yazı tipi boyutu gibi bilgileri de çıkarabiliriz. Örneğin, aşağıdaki kod parçacığını kontrol edin:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan yazı tipi bilgilerini göstermektedir:

Çözüm

Sonuç olarak pdfminer.six'in PDF belgelerinden metin ve diğer bilgileri çıkarma yeteneği var ancak PDF'lerden resim ve tablo çıkarma gibi işlevsellikler eksik.

Pdfminer.six kütüphanesinin PDF sayfalarını resim olarak çıkarmayı desteklediğini ancak bunun pdfminer.six tarafından desteklenmeyen PDF belgelerine gömülü resimleri çıkarmaktan farklı olduğunu belirtmek önemlidir. Ancak geliştiriciler yine de veri analizi ihtiyaçları için metni çıkarmak üzere Python'da PDF'leri ayrıştırmak için buna güvenebilirler.

Benzer Ürünler

 Türkçe