Biblioteca de análisis de PDF de Python de código abierto

Biblioteca Python gratuita y de código abierto para analizar archivos PDF y extraer texto con información de formato.

¿Qué es pdfminer.six?

Pdfminer.six es una biblioteca y un conjunto de herramientas de código abierto de Python para extraer datos de documentos PDF. Puede analizar documentos PDF y extraer texto, índices y contenidos etiquetados, etc. de los PDF para analizar los datos.

A continuación se muestra una breve lista de sus funciones de análisis:

Extracción de texto:Extraiga contenido de texto de documentos PDF, incluida información de diseño y formato como color del texto, fuente y ubicación, etc.
Extracción de información de fuentes: extrae información sobre las fuentes utilizadas en los documentos PDF.

Estadísticas de GitHub

Nombre:
Idioma:
Estrellas:
Tenedores:
Licencia:
El repositorio se actualizó por última vez en

Introducción a pdfminer.six

Necesita la versión 3.6.0 o superior de Python para instalar y usar pypdf. Por lo tanto, primero instale Python y luego use los siguientes comandos para instalar pypdf en su máquina usando pip y virtual environment.

Linux


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

Sistema operativo Mac


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

Ventanas


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

Extraer texto de un documento PDF

Puede utilizar la biblioteca pdfminer.six en Python para extraer texto de un documento PDF utilizando la función extract_text como se muestra en el siguiente fragmento de código:

Producción

La siguiente captura de pantalla muestra el texto extraído del documento PDF:

Extraer información de fuentes de un documento PDF

También podemos extraer información sobre las fuentes utilizadas en el documento PDF, como el nombre y el tamaño de la fuente, iterando por los elementos de diseño de cada página del PDF. Por ejemplo, consulte el siguiente fragmento de código:

Producción

La siguiente captura de pantalla muestra la información de fuente extraída del documento PDF:

Conclusión

En conclusión, pdfminer.six tiene capacidades para extraer texto y otra información de documentos PDF, pero carece de funcionalidades como la extracción de imágenes y tablas de archivos PDF.

Es importante tener en cuenta que la biblioteca pdfminer.six permite extraer páginas PDF como imágenes, pero es diferente de la extracción de imágenes incrustadas en los documentos PDF, que no es compatible con pdfminer.six. Sin embargo, los desarrolladores pueden seguir confiando en ella para analizar archivos PDF en Python y extraer texto para sus necesidades de análisis de datos.

Biblioteca de análisis de PDF de Python de código abierto

Biblioteca Python gratuita y de código abierto para analizar archivos PDF y extraer texto con información de formato.

¿Qué es pdfminer.six?

Estadísticas de GitHub

Introducción a pdfminer.six

Linux

Sistema operativo Mac

Ventanas

Extraer texto de un documento PDF

Producción

Extraer información de fuentes de un documento PDF

Producción

Conclusión

Productos Similares