Biblioteca de analizador de PDF Python de código abierto
Biblioteca Python gratuita y de código abierto para analizar archivos PDF y extraer texto con información de formato.
¿Qué es pdfminer.six?
Pdfminer.six es una biblioteca Python de código abierto y un conjunto de herramientas para extraer datos de documentos PDF. Puede analizar documentos PDF y extraer texto, tablas de contenido y contenidos etiquetados, etc. de archivos PDF para el análisis de datos.
Aquí hay una breve lista de sus características de análisis:
- Extracción de texto:Extraiga contenido de texto de documentos PDF, incluida la información de diseño y formato, como el color del texto, la fuente y la ubicación, etc.
- Extracción de información de fuentes: extrae información sobre las fuentes utilizadas en documentos PDF.
Primeros pasos con pdfminer.six
Necesita la versión 3.6.0 o superior de Python para instalar y utilizar pypdf. Entonces, primero instale Python y luego use los siguientes comandos para instalar pypdf en su máquina usando pip y entorno virtual.
linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Mac OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
ventanas
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extraer texto de un documento PDF
Puede utilizar la biblioteca pdfminer.six en Python para extraer texto de un documento PDF utilizando la función extract_text como se muestra en el siguiente fragmento de código:
Producción
La siguiente captura de pantalla muestra el texto extraído del documento PDF:
Extraer información de fuentes de un documento PDF
También podemos extraer la información sobre las fuentes utilizadas en el documento PDF, como el nombre y el tamaño de la fuente, recorriendo los elementos de diseño de cada página del PDF. Por ejemplo, consulte el siguiente fragmento de código:
Producción
La siguiente captura de pantalla muestra la información de fuente extraída del documento PDF:
Conclusión
En conclusión, pdfminer.six tiene capacidades para extraer texto y otra información de documentos PDF, pero carece de funcionalidades como extraer imágenes y tablas de archivos PDF.
Es importante tener en cuenta que la biblioteca pdfminer.six admite la extracción de páginas PDF como imágenes, pero es diferente de la extracción de imágenes incrustadas en documentos PDF, que no es compatible con pdfminer.six. Sin embargo, los desarrolladores aún pueden confiar en él para analizar archivos PDF en Python y extraer texto para sus necesidades de análisis de datos.