Bibliothèque Python de conversion PDF en HTML/XML

Bibliothèque Python gratuite et open source pour convertir des documents PDF en HTML et XML.

Qu'est-ce que pdfminer.six ?

pdfminer.six est une bibliothèque Python gratuite et open source qui peut être utilisée pour convertir des documents PDF dans d'autres formats.

Voici une brève liste de ses principales fonctionnalités de conversion PDF :

Conversion PDF en HTML : convertissez les documents PDF au format HTML tout en préservant la structure et la mise en page du document.
Conversion PDF en XML : transformez les fichiers PDF au format XML, en capturant tous les détails, y compris les polices et autres éléments.

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec pdfminer.six

Vous avez besoin de la version 3.6.0 ou supérieure de Python pour installer et utiliser pypdf. Commencez donc par installer Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

MacOS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Fenêtres


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Convertir PDF en HTML

Nous pouvons convertir un document PDF au format HTML en utilisant la fonction extract_text_to_fp de la bibliothèque pdfminer.six (avec le type de sortie défini sur html) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le fichier HTML généré par la conversion du document PDF :

Conversion de PDF en XML

Nous pouvons également convertir un document PDF au format XML en utilisant la même fonction extract_text_to_fp (mais avec le type de sortie défini sur xml) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le contenu XML converti à partir du document PDF :

Conclusion

En règle générale, pdfminer.six prend en charge la conversion de documents PDF au format XML sans aucun problème, mais lorsque vous essayez de convertir un PDF en HTML, il parvient à transférer le contenu du texte mais perturbe souvent la mise en page globale.

Bibliothèque Python de conversion PDF en HTML/XML

Bibliothèque Python gratuite et open source pour convertir des documents PDF en HTML et XML.

Qu'est-ce que pdfminer.six ?

Statistiques GitHub

Premiers pas avec pdfminer.six

Linux

MacOS

Fenêtres

Convertir PDF en HTML

Sortir

Conversion de PDF en XML

Sortir

Conclusion

Produits Similaires