Perpustakaan Python Penukaran PDF ke HTML/XML
Pustaka Python percuma & sumber terbuka untuk menukar dokumen PDF kepada HTML & XML.
Apakah itu pdfminer.six?
pdfminer.six ialah perpustakaan Python sumber terbuka dan percuma yang boleh digunakan untuk menukar dokumen PDF kepada format lain.
Berikut ialah senarai ringkas ciri penukaran PDF utamanya:
- Penukaran PDF kepada HTML: Tukar dokumen PDF ke dalam format HTML sambil mengekalkan struktur dan reka letak dokumen.
- Penukaran PDF kepada XML: Ubah fail PDF kepada format XML, menangkap semua butiran, termasuk fon dan elemen lain.
Bermula dengan pdfminer.six
Anda memerlukan Python versi 3.6.0 atau lebih tinggi untuk memasang dan menggunakan pypdf. Jadi, mula-mula pasang Python dan kemudian gunakan arahan di bawah untuk memasang pypdf pada mesin anda menggunakan pip dan persekitaran maya.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
MacOS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Tukar PDF kepada HTML
Kami boleh menukar dokumen PDF kepada format HTML menggunakan fungsi extract_text_to_fp perpustakaan pdfminer.six (dengan jenis output ditetapkan kepada html) yang disediakan oleh pustaka, seperti yang ditunjukkan dalam coretan kod di bawah:
Tangkapan skrin berikut menunjukkan fail HTML yang dijana dengan menukar socument PDF:
Menukar PDF Kepada XML
Kami juga boleh menukar dokumen PDF kepada format XML menggunakan fungsi extract_text_to_fp yang sama (tetapi dengan jenis output ditetapkan kepada xml) yang disediakan oleh pustaka, seperti yang ditunjukkan dalam coretan kod di bawah:
Tangkapan skrin berikut menunjukkan kandungan XML yang ditukar daripada dokumen PDF:
Kesimpulan
Secara amnya, pdfminer.six menyokong penukaran dokumen PDF kepada format XML tanpa sebarang isu tetapi apabila cuba menukar PDF kepada HTML, ia berjaya memindahkan kandungan teks tetapi sering mengganggu reka letak keseluruhan.