Análisis exploratorio de datos
Las metodologías de exploración de datos son normalmente el primer paso antes de proceder con técnicas estadísticas avanzadas como puede ser la estadística inferencial o el aprendizaje autónomo.
El análisis exploratorio de datos o también conocido como EDA por sus siglas en inglés “Exploratory data analysis” es una parte de la matemática estadística que usa herramientas para describir de forma cualitativa las características principales de los datos.
Se hace uso de gráficos y de métricas que permiten hacer un resumen de los datos de interés para sacar unas primeras conclusiones iniciales sobre las relaciones entre variables y posibles correlaciones.
Técnicas gráficas para la exploración de datos
El primer paso cuando empezamos analizar un conjunto de datos nuevo es graficar las distintas variables para empezar a entender que información podemos sacar de ellos.
Bias en estadística y machine learning
El bias es uno de los errores en machine learning más comunes y que más influyen a las malas predicciones de los modelos. Aprende qué es y cómo solucionarlo.
Ver artículoAlgunas de las técnicas básicas de exploración y análisis de información son las siguientes:
Diagramas de caja o boxplots
Los diagramas de cajas o en inglés, boxplots, son un tipo de gráficos que permiten ver la distribución de los datos en forma de caja.
En ellas se representan los diferentes cuartiles de la distribución junto a la media, la desviación estándar y los valores atípicos. Este tipo de gráfico nos da una primera visión de que forma tienen los datos y como se distribuyen dentro de nuestro dataset.
Histogramas
Los histogramas son gráficos que describen una variable usando barras donde su superficie es directamente proporcional a la frecuencia de los valores de nuestros datos.
Existen distintos tipos de gráficos de histogramas, cada uno con un objetivo concreto para entender los datos.
Otros posts que te gustarán
Es muy recomendable usar este tipo de visualizaciones para entender nuestras variables cuando llevamos a cabo las fases iniciales de la exploración y análisis de los datos.
Mapas de calor o heatmaps
Los mapas de calor son un tipo de gráfico usado en muchos sectores para analizar magnitudes de una variable según su color. Normalmente, la gamma de colores que se utiliza va del azul al rojo, siendo el azul los valores más bajos y el rojo los más altos.
Este tipo de exploración de datos se emplea en muchos campos como la biología molecular para detectar el nivel de expresión de los genes o el marketing digital para saber cuales son las partes de la web donde los usuarios más interaccionan.
Diagramas de dispersión
Este tipo de gráfico permite estudiar la relación entre pares de variables (x,y) a través de un diagrama formado por una nube de puntos. Gracias a este análisis podemos ver variables relacionadas a través de una correlación directa o inversa (directamente proporcionales o inversamente proporcionales).
Cuando utilizar la exploración de datos
La respuesta es siempre. Este tipo de análisis iniciales permiten empezar a sacar conclusiones de nuestros datos y nos puede guiar a como definir la estrategia de análisis de datos.
Además, en este paso podemos detectar la calidad del conjunto de datos recibido y diseñar una buena metodología para limpiar los datos mejorando su calidad y mejorando los resultados del análisis.
Herramientas para la exploración de datos
Existen muchas herramientas avanzadas para el análisis de datos. Están pensadas para llevar a cabo metodologías de business intelligence o machine learning.
No obstante, para hacer un análisis exploratorio inicial no necesitamos ninguna herramienta de pago. Podemos usar directamente alguna hoja de cálculo como Excel o Google Sheets.
Estos programas nos permiten abrir los datos y crear distintos gráficos para empezar a tener una idea de como es la información que hemos recibido.
Mi herramienta preferida son los lenguajes de programación Python o R. Estos tienen distintas librerías orientadas al análisis de datos. Si dominamos alguno de estos dos lenguajes podemos crear diferentes gráficos de forma rápida y efectiva.