1. Ürünler
  2.   Dönüştürmek
  3.   Python
  4.   pdfminer.six
 
  

PDF'yi HTML/XML'e Dönüştürme Python Kütüphanesi

PDF belgelerini HTML ve XML'e dönüştürmek için ücretsiz ve açık kaynaklı Python kütüphanesi.

pdfminer.six nedir?

pdfminer.six, PDF belgelerini diğer formatlara dönüştürmek için kullanılabilen ücretsiz ve açık kaynaklı bir Python kütüphanesidir.

İşte PDF dönüştürme özelliğinin başlıca özelliklerinin kısa bir listesi:

  • PDF'den HTML'ye Dönüştürme: Belgenin yapısını ve düzenini koruyarak PDF belgelerini HTML formatına dönüştürün.
  • PDF'den XML'e Dönüştürme: PDF dosyalarını, yazı tipleri ve diğer öğeler dahil tüm ayrıntıları yakalayarak XML formatına dönüştürün.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

pdfminer.six ile Başlarken

Pypdf'yi kurmak ve kullanmak için Python 3.6.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak pip ve sanal ortam kullanarak pypdf'yi makinenize kurun.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS X


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF'yi HTML'ye dönüştür

Aşağıdaki kod parçacığında gösterildiği gibi, kütüphane tarafından sağlanan pdfminer.six kütüphanesinin extract_text_to_fp fonksiyonunu (çıktı türü html olarak ayarlanmış) kullanarak bir PDF belgesini HTML formatına dönüştürebiliriz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinin dönüştürülmesiyle oluşturulan HTML dosyasını göstermektedir:

PDF'yi XML'e Dönüştürme

Aşağıdaki kod parçacığında gösterildiği gibi, kütüphane tarafından sağlanan aynı extract_text_to_fp fonksiyonunu kullanarak (ancak çıktı türü xml olarak ayarlanarak) bir PDF belgesini XML formatına da dönüştürebiliriz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden dönüştürülen XML içeriğini göstermektedir:

Çözüm

Genel olarak pdfminer.six, PDF belgelerini XML formatına sorunsuz bir şekilde dönüştürmeyi destekler ancak bir PDF'i HTML'e dönüştürmeye çalışırken metin içeriğini aktarmayı başarır ancak genellikle genel düzeni bozar.

Benzer Ürünler

 Türkçe