1. Productos
  2.   analizador
  3.   Python
  4.   pdfminer.six
 
  

Biblioteca de analizador de PDF Python de código abierto

Biblioteca Python gratuita y de código abierto para analizar archivos PDF y extraer texto con información de formato.

¿Qué es pdfminer.six?

Pdfminer.six es una biblioteca Python de código abierto y un conjunto de herramientas para extraer datos de documentos PDF. Puede analizar documentos PDF y extraer texto, tablas de contenido y contenidos etiquetados, etc. de archivos PDF para el análisis de datos.

Aquí hay una breve lista de sus características de análisis:

  • Extracción de texto:Extraiga contenido de texto de documentos PDF, incluida la información de diseño y formato, como el color del texto, la fuente y la ubicación, etc.
  • Extracción de información de fuentes: extrae información sobre las fuentes utilizadas en documentos PDF.
GitHub

Estadísticas de GitHub

Nombre:
Idioma:
Estrellas:
Tenedores:
Licencia:
El repositorio se actualizó por última vez en

Primeros pasos con pdfminer.six

Necesita la versión 3.6.0 o superior de Python para instalar y utilizar pypdf. Entonces, primero instale Python y luego use los siguientes comandos para instalar pypdf en su máquina usando pip y entorno virtual.

Extraer texto de un documento PDF

Puede utilizar la biblioteca pdfminer.six en Python para extraer texto de un documento PDF utilizando la función extract_text como se muestra en el siguiente fragmento de código:

Producción

La siguiente captura de pantalla muestra el texto extraído del documento PDF:

Extraer información de fuentes de un documento PDF

También podemos extraer la información sobre las fuentes utilizadas en el documento PDF, como el nombre y el tamaño de la fuente, recorriendo los elementos de diseño de cada página del PDF. Por ejemplo, consulte el siguiente fragmento de código:

Producción

La siguiente captura de pantalla muestra la información de fuente extraída del documento PDF:

Conclusión

En conclusión, pdfminer.six tiene capacidades para extraer texto y otra información de documentos PDF, pero carece de funcionalidades como extraer imágenes y tablas de archivos PDF.

Es importante tener en cuenta que la biblioteca pdfminer.six admite la extracción de páginas PDF como imágenes, pero es diferente de la extracción de imágenes incrustadas en documentos PDF, que no es compatible con pdfminer.six. Sin embargo, los desarrolladores aún pueden confiar en él para analizar archivos PDF en Python y extraer texto para sus necesidades de análisis de datos.

Productos Similares

 Español