Biblioteca de analisador de PDF Python de código aberto

Biblioteca Python gratuita e de código aberto para analisar PDFs e extrair texto com informações de formatação.

O que é pdfminer.six?

Pdfminer.six é uma biblioteca Python de código aberto e conjunto de ferramentas para extrair dados de documentos PDF. Você pode analisar documentos PDF e extrair texto, índice e conteúdo marcado etc. de PDFs para análise de dados.

Aqui está uma breve lista de seus recursos de análise:

Extração de texto: extraia conteúdo de texto de documentos PDF, incluindo informações de layout e formatação, como cor do texto, fonte e localização, etc.
Extração de informações de fontes: extraia informações sobre as fontes usadas em documentos PDF.

Estatísticas do GitHub

Nome:
Linguagem:
Estrelas:
Garfos:
Licença:
O repositório foi atualizado pela última vez em

Introdução ao pdfminer.six

Você precisa do Python versão 3.6.0 ou superior para instalar e usar o pypdf. Então, primeiro instale o Python e então use os comandos abaixo para instalar o pypdf na sua máquina usando pip e ambiente virtual.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Mac OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Windows


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extrair texto de documento PDF

Você pode usar a biblioteca pdfminer.six em Python para extrair texto de um documento PDF usando a função extract_text, conforme mostrado no trecho de código abaixo:

Saída

A captura de tela a seguir mostra o texto extraído do documento PDF:

Extrair informações de fonte de documento PDF

Também podemos extrair as informações sobre as fontes usadas no Documento PDF, como o nome da fonte e o tamanho da fonte, iterando pelos elementos de layout de cada página no PDF. Por exemplo, verifique o snippet de código abaixo:

Saída

A captura de tela a seguir mostra as informações da fonte extraídas do documento PDF:

Conclusão

Concluindo, o pdfminer.six tem a capacidade de extrair texto e outras informações de documentos PDF, mas carece de funcionalidades como extrair imagens e tabelas de PDFs.

É importante notar que a biblioteca pdfminer.six suporta a extração de páginas PDF como imagens, mas é diferente da extração de imagens incorporadas em documentos PDF, que não é suportada pelo pdfminer.six. No entanto, os desenvolvedores ainda podem contar com ela para analisar PDFs em Python para extrair texto para suas necessidades de análise de dados.

Biblioteca de analisador de PDF Python de código aberto

Biblioteca Python gratuita e de código aberto para analisar PDFs e extrair texto com informações de formatação.

O que é pdfminer.six?

Estatísticas do GitHub

Introdução ao pdfminer.six

Linux

Mac OS

Windows

Extrair texto de documento PDF

Saída

Extrair informações de fonte de documento PDF

Saída

Conclusão

Produtos Similares