1. Des produits
  2.   Conversion
  3.   Python
  4.   pdfminer.six
 
  

Bibliothèque Python de conversion PDF en HTML/XML

Bibliothèque Python gratuite et open source pour convertir des documents PDF en HTML et XML.

Qu'est-ce que pdfminer.six ?

pdfminer.six est une bibliothèque Python gratuite et open source qui peut être utilisée pour convertir des documents PDF dans d'autres formats.

Voici une brève liste de ses principales fonctionnalités de conversion PDF :

  • Conversion PDF en HTML : convertissez les documents PDF au format HTML tout en préservant la structure et la mise en page du document.
  • Conversion PDF en XML : transformez les fichiers PDF au format XML, en capturant tous les détails, y compris les polices et autres éléments.
GitHub

Statistiques GitHub

Nom:
Langue:
Étoiles:
Fourchettes:
Licence:
Le référentiel a été mis à jour pour la dernière fois à

Premiers pas avec pdfminer.six

Vous avez besoin de Python version 3.6.0 ou supérieure pour installer et utiliser pypdf. Alors, installez d'abord Python, puis utilisez les commandes ci-dessous pour installer pypdf sur votre machine en utilisant pip et environnement virtuel.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

les fenêtres


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Convertir un PDF en HTML

Nous pouvons convertir un document PDF au format HTML à l'aide de la fonction extract_text_to_fp de la bibliothèque pdfminer.six (avec le type de sortie défini sur html) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le fichier HTML généré par la conversion du document PDF :

Conversion de PDF en XML

Nous pouvons également convertir un document PDF au format XML en utilisant la même fonction extract_text_to_fp (mais avec le type de sortie défini sur xml) fournie par la bibliothèque, comme indiqué dans l'extrait de code ci-dessous :

Sortir

La capture d'écran suivante montre le contenu XML converti à partir du document PDF :

Conclusion

Généralement, pdfminer.six prend en charge la conversion de documents PDF au format XML sans aucun problème, mais lors de la tentative de conversion d'un PDF en HTML, il parvient à transférer le contenu du texte mais perturbe souvent la mise en page globale.

Produits Similaires

 Français