1. Produtos
  2.   Analisador
  3.   Python
  4.   pdfminer.six
 
  

Biblioteca de analisador de PDF Python de código aberto

Biblioteca Python gratuita e de código aberto para analisar PDFs e extrair texto com informações de formatação.

O que é pdfminer.six?

Pdfminer.six é uma biblioteca Python de código aberto e conjunto de ferramentas para extrair dados de documentos PDF. Você pode analisar documentos PDF e extrair texto, índice e conteúdo marcado etc. de PDFs para análise de dados.

Aqui está uma breve lista de seus recursos de análise:

  • Extração de texto: extraia conteúdo de texto de documentos PDF, incluindo informações de layout e formatação, como cor do texto, fonte e localização, etc.
  • Extração de informações de fontes: extraia informações sobre as fontes usadas em documentos PDF.
GitHub

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Introdução ao pdfminer.six

Você precisa do Python versão 3.6.0 ou superior para instalar e usar o pypdf. Então, primeiro instale o Python e então use os comandos abaixo para instalar o pypdf na sua máquina usando pip e ambiente virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extrair texto de documento PDF

Você pode usar a biblioteca pdfminer.six em Python para extrair texto de um documento PDF usando a função extract_text, conforme mostrado no trecho de código abaixo:

Saída

A captura de tela a seguir mostra o texto extraído do documento PDF:

Extrair informações de fonte de documento PDF

Também podemos extrair as informações sobre as fontes usadas no Documento PDF, como o nome da fonte e o tamanho da fonte, iterando pelos elementos de layout de cada página no PDF. Por exemplo, verifique o snippet de código abaixo:

Saída

A captura de tela a seguir mostra as informações da fonte extraídas do documento PDF:

Conclusão

Concluindo, o pdfminer.six tem a capacidade de extrair texto e outras informações de documentos PDF, mas carece de funcionalidades como extrair imagens e tabelas de PDFs.

É importante notar que a biblioteca pdfminer.six suporta a extração de páginas PDF como imagens, mas é diferente da extração de imagens incorporadas em documentos PDF, que não é suportada pelo pdfminer.six. No entanto, os desenvolvedores ainda podem contar com ela para analisar PDFs em Python para extrair texto para suas necessidades de análise de dados.

Produtos Similares

 Portugese