PDF'yi HTML/XML'e Dönüştürme Python Kütüphanesi
PDF belgelerini HTML ve XML'e dönüştürmek için ücretsiz ve açık kaynaklı Python kütüphanesi.
pdfminer.six nedir?
pdfminer.six, PDF belgelerini diğer formatlara dönüştürmek için kullanılabilen ücretsiz ve açık kaynaklı bir Python kütüphanesidir.
İşte PDF dönüştürme özelliğinin başlıca özelliklerinin kısa bir listesi:
- PDF'den HTML'ye Dönüştürme: Belgenin yapısını ve düzenini koruyarak PDF belgelerini HTML formatına dönüştürün.
- PDF'den XML'e Dönüştürme: PDF dosyalarını, yazı tipleri ve diğer öğeler dahil tüm ayrıntıları yakalayarak XML formatına dönüştürün.
pdfminer.six ile Başlarken
Pypdf'yi kurmak ve kullanmak için Python 3.6.0 veya üzeri sürüme ihtiyacınız var. Bu nedenle, önce Python'u kurun ve ardından aşağıdaki komutları kullanarak pip ve sanal ortam kullanarak pypdf'yi makinenize kurun.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS X
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Pencereler
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF'yi HTML'ye dönüştür
Aşağıdaki kod parçacığında gösterildiği gibi, kütüphane tarafından sağlanan pdfminer.six kütüphanesinin extract_text_to_fp fonksiyonunu (çıktı türü html olarak ayarlanmış) kullanarak bir PDF belgesini HTML formatına dönüştürebiliriz:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinin dönüştürülmesiyle oluşturulan HTML dosyasını göstermektedir:
PDF'yi XML'e Dönüştürme
Aşağıdaki kod parçacığında gösterildiği gibi, kütüphane tarafından sağlanan aynı extract_text_to_fp fonksiyonunu kullanarak (ancak çıktı türü xml olarak ayarlanarak) bir PDF belgesini XML formatına da dönüştürebiliriz:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden dönüştürülen XML içeriğini göstermektedir:
Çözüm
Genel olarak pdfminer.six, PDF belgelerini XML formatına sorunsuz bir şekilde dönüştürmeyi destekler ancak bir PDF'i HTML'e dönüştürmeye çalışırken metin içeriğini aktarmayı başarır ancak genellikle genel düzeni bozar.