Biblioteca de análisis de PDF de Python de código abierto
Biblioteca Python gratuita y de código abierto para analizar archivos PDF y extraer texto con información de formato.
¿Qué es pdfminer.six?
Pdfminer.six es una biblioteca y un conjunto de herramientas de código abierto de Python para extraer datos de documentos PDF. Puede analizar documentos PDF y extraer texto, índices y contenidos etiquetados, etc. de los PDF para analizar los datos.
A continuación se muestra una breve lista de sus funciones de análisis:
- Extracción de texto:Extraiga contenido de texto de documentos PDF, incluida información de diseño y formato como color del texto, fuente y ubicación, etc.
- Extracción de información de fuentes: extrae información sobre las fuentes utilizadas en los documentos PDF.
Introducción a pdfminer.six
Necesita la versión 3.6.0 o superior de Python para instalar y usar pypdf. Por lo tanto, primero instale Python y luego use los siguientes comandos para instalar pypdf en su máquina usando pip y virtual environment.
Linux
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
Sistema operativo Mac
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
Ventanas
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
Extraer texto de un documento PDF
Puede utilizar la biblioteca pdfminer.six en Python para extraer texto de un documento PDF utilizando la función extract_text como se muestra en el siguiente fragmento de código:
Producción
La siguiente captura de pantalla muestra el texto extraído del documento PDF:
Extraer información de fuentes de un documento PDF
También podemos extraer información sobre las fuentes utilizadas en el documento PDF, como el nombre y el tamaño de la fuente, iterando por los elementos de diseño de cada página del PDF. Por ejemplo, consulte el siguiente fragmento de código:
Producción
La siguiente captura de pantalla muestra la información de fuente extraída del documento PDF:
Conclusión
En conclusión, pdfminer.six tiene capacidades para extraer texto y otra información de documentos PDF, pero carece de funcionalidades como la extracción de imágenes y tablas de archivos PDF.
Es importante tener en cuenta que la biblioteca pdfminer.six permite extraer páginas PDF como imágenes, pero es diferente de la extracción de imágenes incrustadas en los documentos PDF, que no es compatible con pdfminer.six. Sin embargo, los desarrolladores pueden seguir confiando en ella para analizar archivos PDF en Python y extraer texto para sus necesidades de análisis de datos.