Bibliothèque Python de conversion PDF en HTML/XML
Bibliothèque Python gratuite et open source pour convertir des documents PDF en HTML et XML.
Qu'est-ce que pdfminer.six ?
pdfminer.six est une bibliothèque Python gratuite et open source qui peut être utilisée pour convertir des documents PDF dans d'autres formats.
Voici une brève liste de ses principales fonctionnalités de conversion PDF :
- Conversion PDF en HTML : convertissez les documents PDF au format HTML tout en préservant la structure et la mise en page du document.
- Conversion PDF en XML : transformez les fichiers PDF au format XML, en capturant tous les détails, y compris les polices et autres éléments.
Premiers pas avec pdfminer.six
Vous avez besoin de Python version 3.6.0 ou supérieure pour installer et utiliser pypdf. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
les fenêtres
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Convertir un PDF en HTML
Nous pouvons convertir un document PDF au format HTML à l'aide de la fonction extract_text_to_fp de la bibliothèque pdfminer.six (avec le type de sortie défini sur html) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre le fichier HTML généré par la conversion du document PDF :
Conversion de PDF en XML
Nous pouvons également convertir un document PDF au format XML en utilisant la même fonction extract_text_to_fp (mais avec le type de sortie défini sur xml) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :
Sortir
La capture d'écran suivante montre le contenu XML converti à partir du document PDF :
Conclusion
Généralement, pdfminer.six prend en charge la conversion de documents PDF au format XML sans aucun problème, mais lors de la tentative de conversion d'un PDF en HTML, il parvient à transférer le contenu du texte mais perturbe souvent la mise en page globale.