Biblioteca Python de conversão de PDF para HTML/XML

Biblioteca Python gratuita e de código aberto para converter documentos PDF em HTML e XML.

O que é pdfminer.six?

pdfminer.six é uma biblioteca Python gratuita e de código aberto que pode ser usada para converter documentos PDF em outros formatos.

Aqui está uma breve lista de seus principais recursos de conversão de PDF:

Conversão de PDF para HTML: converta documentos PDF para o formato HTML, preservando a estrutura e o layout do documento.
Conversão de PDF para XML: transforme arquivos PDF em formato XML, capturando todos os detalhes, incluindo fontes e outros elementos.

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Introdução ao pdfminer.six

Você precisa do Python versão 3.6.0 ou superior para instalar e usar o pypdf. Então, primeiro instale o Python e então use os comandos abaixo para instalar o pypdf na sua máquina usando pip e ambiente virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Converter PDF para HTML

Podemos converter um documento PDF para o formato HTML usando a função extract_text_to_fp da biblioteca pdfminer.six (com o tipo de saída definido como html) fornecida pela biblioteca, conforme mostrado no trecho de código abaixo:

Saída

A captura de tela a seguir mostra o arquivo HTML gerado pela conversão do documento PDF:

Convertendo PDF para XML

Também podemos converter um documento PDF para o formato XML usando a mesma função extract_text_to_fp (mas com o tipo de saída definido como xml) fornecida pela biblioteca, conforme mostrado no trecho de código abaixo:

Saída

A captura de tela a seguir mostra o conteúdo XML convertido do documento PDF:

Conclusão

Geralmente, o pdfminer.six suporta a conversão de documentos PDF para o formato XML sem problemas, mas ao tentar converter um PDF para HTML, ele consegue transferir o conteúdo do texto, mas muitas vezes interrompe o layout geral.

Biblioteca Python de conversão de PDF para HTML/XML

Biblioteca Python gratuita e de código aberto para converter documentos PDF em HTML e XML.

O que é pdfminer.six?

Estatísticas do GitHub

Introdução ao pdfminer.six

Linux

Mac OS

Windows

Converter PDF para HTML

Saída

Convertendo PDF para XML

Saída

Conclusão

Produtos Similares