1. Ürünler
  2.   Dönüştürmek
  3.   Python
  4.   pdfminer.six
 
  

PDF'den HTML/XML'e Dönüştürme Python Kitaplığı

PDF belgelerini HTML ve XML'e dönüştürmek için ücretsiz ve açık kaynaklı Python kitaplığı.

pdfminer.six nedir?

pdfminer.six, PDF belgelerini diğer formatlara dönüştürmek için kullanılabilecek ücretsiz ve açık kaynaklı bir Python kitaplığıdır.

İşte ana PDF dönüştürme özelliklerinin kısa bir listesi:

  • PDF'den HTML'ye Dönüştürme: Belgenin yapısını ve düzenini koruyarak PDF belgelerini HTML biçimine dönüştürün.
  • PDF'den XML'e Dönüştürme: Yazı tipleri ve diğer öğeler dahil tüm ayrıntıları yakalayarak PDF dosyalarını XML biçimine dönüştürün.
GitHub

GitHub İstatistikleri

İsim:
Dil:
Yıldızlar:
Çatallar:
Lisans:
Depo en son şu tarihte güncellendi:

pdfminer.six'e Başlarken

Pypdf'i kurmak ve kullanmak için Python 3.6.0 veya daha yeni bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac os işletim sistemi


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

pencereler


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF'yi HTML'ye dönüştürün

Aşağıdaki kod parçacığında gösterildiği gibi, pdfminer.six kütüphanesinin kütüphane tarafından sağlanan extract_text_to_fp işlevini (çıktı türü html'ye ayarlanmış olarak) kullanarak bir PDF belgesini HTML formatına dönüştürebiliriz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinin dönüştürülmesiyle oluşturulan HTML dosyasını gösterir:

PDF'yi XML'e Dönüştürme

Aşağıdaki kod parçacığında gösterildiği gibi, kitaplık tarafından sağlanan aynı extract_text_to_fp işlevini kullanarak (ancak çıktı türü xml olarak ayarlanmış şekilde) bir PDF belgesini XML biçimine de dönüştürebiliriz:

Çıktı

Aşağıdaki ekran görüntüsü PDF belgesinden dönüştürülen XML içeriğini gösterir:

Çözüm

Genel olarak pdfminer.six, PDF belgelerinin XML formatına herhangi bir sorun olmadan dönüştürülmesini destekler, ancak bir PDF'yi HTML'ye dönüştürmeye çalışırken metin içeriğini aktarmayı başarır ancak genellikle genel düzeni bozar.

Benzer Ürünler

 Türkçe