Perpustakaan Python Penukaran PDF ke HTML/XML

Pustaka Python percuma & sumber terbuka untuk menukar dokumen PDF kepada HTML & XML.

Apakah itu pdfminer.six?

pdfminer.six ialah perpustakaan Python sumber terbuka dan percuma yang boleh digunakan untuk menukar dokumen PDF kepada format lain.

Berikut ialah senarai ringkas ciri penukaran PDF utamanya:

Penukaran PDF ke HTML: Tukar dokumen PDF ke dalam format HTML sambil mengekalkan struktur dan reka letak dokumen.
Penukaran PDF kepada XML: Ubah fail PDF kepada format XML, menangkap semua butiran, termasuk fon dan elemen lain.

Statistik GitHub

nama:
Bahasa:
Bintang:
Garpu:
Lesen:
Repositori dikemas kini terakhir pada

Bermula dengan pdfminer.six

Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Tukar PDF kepada HTML

Kami boleh menukar dokumen PDF kepada format HTML menggunakan fungsi extract_text_to_fp perpustakaan pdfminer.six (dengan jenis output ditetapkan kepada html) yang disediakan oleh pustaka, seperti ditunjukkan dalam coretan kod di bawah:

Keluaran

Tangkapan skrin berikut menunjukkan fail HTML yang dijana dengan menukar dokumen PDF:

Menukar PDF Kepada XML

Kami juga boleh menukar dokumen PDF kepada format XML menggunakan fungsi extract_text_to_fp yang sama (tetapi dengan jenis output ditetapkan kepada xml) yang disediakan oleh pustaka, seperti yang ditunjukkan dalam coretan kod di bawah:

Keluaran

Tangkapan skrin berikut menunjukkan kandungan XML yang ditukar daripada dokumen PDF:

Kesimpulan

Secara amnya, pdfminer.six menyokong penukaran dokumen PDF kepada format XML tanpa sebarang masalah tetapi apabila cuba menukar PDF kepada HTML, ia berjaya memindahkan kandungan teks tetapi sering mengganggu reka letak keseluruhan.

Perpustakaan Python Penukaran PDF ke HTML/XML

Pustaka Python percuma & sumber terbuka untuk menukar dokumen PDF kepada HTML & XML.

Apakah itu pdfminer.six?

Statistik GitHub

Bermula dengan pdfminer.six

Linux

MacOS

Windows

Tukar PDF kepada HTML

Keluaran

Menukar PDF Kepada XML

Keluaran

Kesimpulan

Produk Serupa