Biblioteca Python de conversão de PDF para HTML/XML
Biblioteca Python gratuita e de código aberto para converter documentos PDF em HTML e XML.
O que é pdfminer.six?
pdfminer.six é uma biblioteca Python gratuita e de código aberto que pode ser usada para converter documentos PDF em outros formatos.
Aqui está uma breve lista de seus principais recursos de conversão de PDF:
- Conversão de PDF para HTML: converta documentos PDF para o formato HTML, preservando a estrutura e o layout do documento.
- Conversão de PDF para XML: transforme arquivos PDF em formato XML, capturando todos os detalhes, incluindo fontes e outros elementos.
Introdução ao pdfminer.six
Você precisa do Python versão 3.6.0 ou superior para instalar e usar o pypdf. Então, primeiro instale o Python e então use os comandos abaixo para instalar o pypdf na sua máquina usando pip e ambiente virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Converter PDF para HTML
Podemos converter um documento PDF para o formato HTML usando a função extract_text_to_fp da biblioteca pdfminer.six (com o tipo de saída definido como html) fornecida pela biblioteca, conforme mostrado no trecho de código abaixo:
Saída
A captura de tela a seguir mostra o arquivo HTML gerado pela conversão do documento PDF:
Convertendo PDF para XML
Também podemos converter um documento PDF para o formato XML usando a mesma função extract_text_to_fp (mas com o tipo de saída definido como xml) fornecida pela biblioteca, conforme mostrado no trecho de código abaixo:
Saída
A captura de tela a seguir mostra o conteúdo XML convertido do documento PDF:
Conclusão
Geralmente, o pdfminer.six suporta a conversão de documentos PDF para o formato XML sem problemas, mas ao tentar converter um PDF para HTML, ele consegue transferir o conteúdo do texto, mas muitas vezes interrompe o layout geral.