Biblioteca de analisador de PDF Python de código aberto
Biblioteca Python gratuita e de código aberto para analisar PDFs e extrair texto com informações de formatação.
O que é pdfminer.six?
Pdfminer.six é uma biblioteca Python de código aberto e conjunto de ferramentas para extrair dados de documentos PDF. Você pode analisar documentos PDF e extrair texto, índice e conteúdo marcado etc. de PDFs para análise de dados.
Aqui está uma breve lista de seus recursos de análise:
- Extração de texto: extraia conteúdo de texto de documentos PDF, incluindo informações de layout e formatação, como cor do texto, fonte e localização, etc.
- Extração de informações de fontes: extraia informações sobre as fontes usadas em documentos PDF.
Introdução ao pdfminer.six
Você precisa do Python versão 3.6.0 ou superior para instalar e usar o pypdf. Então, primeiro instale o Python e então use os comandos abaixo para instalar o pypdf na sua máquina usando pip e ambiente virtual.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Windows
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extrair texto de documento PDF
Você pode usar a biblioteca pdfminer.six em Python para extrair texto de um documento PDF usando a função extract_text, conforme mostrado no trecho de código abaixo:
Saída
A captura de tela a seguir mostra o texto extraído do documento PDF:
Extrair informações de fonte de documento PDF
Também podemos extrair as informações sobre as fontes usadas no Documento PDF, como o nome da fonte e o tamanho da fonte, iterando pelos elementos de layout de cada página no PDF. Por exemplo, verifique o snippet de código abaixo:
Saída
A captura de tela a seguir mostra as informações da fonte extraídas do documento PDF:
Conclusão
Concluindo, o pdfminer.six tem a capacidade de extrair texto e outras informações de documentos PDF, mas carece de funcionalidades como extrair imagens e tabelas de PDFs.
É importante notar que a biblioteca pdfminer.six suporta a extração de páginas PDF como imagens, mas é diferente da extração de imagens incorporadas em documentos PDF, que não é suportada pelo pdfminer.six. No entanto, os desenvolvedores ainda podem contar com ela para analisar PDFs em Python para extrair texto para suas necessidades de análise de dados.