PDF'den HTML/XML'e Dönüştürme Python Kitaplığı
PDF belgelerini HTML ve XML'e dönüştürmek için ücretsiz ve açık kaynaklı Python kitaplığı.
pdfminer.six nedir?
pdfminer.six, PDF belgelerini diğer formatlara dönüştürmek için kullanılabilecek ücretsiz ve açık kaynaklı bir Python kitaplığıdır.
İşte ana PDF dönüştürme özelliklerinin kısa bir listesi:
- PDF'den HTML'ye Dönüştürme: Belgenin yapısını ve düzenini koruyarak PDF belgelerini HTML biçimine dönüştürün.
- PDF'den XML'e Dönüştürme: Yazı tipleri ve diğer öğeler dahil tüm ayrıntıları yakalayarak PDF dosyalarını XML biçimine dönüştürün.
pdfminer.six'e Başlarken
Pypdf'i kurmak ve kullanmak için Python 3.6.0 veya daha yeni bir sürüme ihtiyacınız var. Bu nedenle, önce Python'u yükleyin ve ardından pip ve sanal ortam.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac os işletim sistemi
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
pencereler
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF'yi HTML'ye dönüştürün
Aşağıdaki kod parçacığında gösterildiği gibi, pdfminer.six kütüphanesinin kütüphane tarafından sağlanan extract_text_to_fp işlevini (çıktı türü html'ye ayarlanmış olarak) kullanarak bir PDF belgesini HTML formatına dönüştürebiliriz:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinin dönüştürülmesiyle oluşturulan HTML dosyasını gösterir:
PDF'yi XML'e Dönüştürme
Aşağıdaki kod parçacığında gösterildiği gibi, kitaplık tarafından sağlanan aynı extract_text_to_fp işlevini kullanarak (ancak çıktı türü xml olarak ayarlanmış şekilde) bir PDF belgesini XML biçimine de dönüştürebiliriz:
Çıktı
Aşağıdaki ekran görüntüsü PDF belgesinden dönüştürülen XML içeriğini gösterir:
Çözüm
Genel olarak pdfminer.six, PDF belgelerinin XML formatına herhangi bir sorun olmadan dönüştürülmesini destekler, ancak bir PDF'yi HTML'ye dönüştürmeye çalışırken metin içeriğini aktarmayı başarır ancak genellikle genel düzeni bozar.