Açık Kaynak Python PDF Ayrıştırıcı Kitaplığı

PDF'leri ayrıştırmak ve biçimlendirme bilgileriyle metni çıkarmak için ücretsiz ve Açık kaynaklı Python kitaplığı.

pdfminer.six nedir?

Pdfminer.six, PDF belgelerinden veri çıkarmaya yönelik açık kaynaklı bir Python kitaplığı ve araç setidir. Veri analizi için PDF belgelerini ayrıştırabilir ve PDF'lerden metin, içindekiler tablosu ve etiketli içerikleri vb. çıkarabilirsiniz.

İşte ayrıştırma özelliklerinin kısa bir listesi:

  • Metin Çıkarma: Metin rengi, yazı tipi ve konum vb. gibi düzen ve biçimlendirme bilgileri dahil olmak üzere PDF belgelerinden metin içeriğini çıkarın.
  • Yazı Tipi Bilgisi Çıkarma: PDF belgelerinde kullanılan yazı tipleri hakkında bilgi çıkarın.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

pdfminer.six'e Başlarken

Pypdf'i kurmak ve kullanmak için Python 3.6.0 veya daha yeni bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac os işletim sistemi


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF Belgesinden Metin Çıkarma

Aşağıdaki kod parçacığında gösterildiği gibi extract_text işlevini kullanarak bir PDF belgesinden metin çıkarmak için Python'daki pdfminer.six kitaplığını kullanabilirsiniz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan metni göstermektedir:

Yazı Tipi Bilgilerini PDF Belgesinden Çıkartın

Ayrıca, PDF'deki her sayfanın düzen öğelerini yineleyerek, PDF Belgesinde kullanılan yazı tipleri hakkındaki yazı tipi adı ve yazı tipi boyutu gibi bilgileri de çıkarabiliriz. Örneğin, aşağıdaki kod parçacığını kontrol edin:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden çıkarılan yazı tipi bilgilerini gösterir:

Çözüm

Sonuç olarak, pdfminer.six, PDF belgelerinden metin ve diğer bilgileri çıkarma yeteneklerine sahiptir ancak PDF'lerden resim ve tablo çıkarma gibi işlevlerden yoksundur.

pdfminer.six kitaplığının PDF sayfalarını görüntü olarak çıkarmayı desteklediğini ancak pdfminer.six tarafından desteklenmeyen PDF belgelerine gömülü görüntülerin çıkarılmasından farklı olduğunu unutmamak önemlidir. Ancak geliştiriciler, veri analizi ihtiyaçları için metin çıkarmak amacıyla Python'da PDF'leri ayrıştırma konusunda yine de ona güvenebilirler.

Benzer Ürünler

 Türkçe