Algoritmos de minería de datos o data mining
La minería de datos es un campo de la estadística que aplica diferentes métodos y estrategias con el objetivo de encontrar patrones en grandes cantidades de datos.
Para conseguirlo hace uso de metodologías de la estadística, computación, ciencia de datos o programación. En este artículo te contamos 9 de los algoritmos y técnicas más usados en el data mining o minería de datos para encontrar la información relevante que se esconde dentro de los datos.
Limpieza de datos
La limpieza de datos es una de las partes fundamentales de cualquier procedimiento en ciencia de datos o data mining. La información muchas veces procede de distintas fuentes y muchas de ellas poco fiables. Por lo tanto, este tipo de metodología tiene como único objetivo limpiar la información.
Algunas de las técnicas usadas en este punto es la detección de outliers, relleno de datos que faltan o eliminación de datos redundantes. Una vez limpiados los datos ya pueden ser preparados para ser usados por algoritmos estadísticos.
9 aplicaciones y ejemplos del Big Data en la sociedad
El Big Data es usado actualmente en muchos sectores distintos. El manejo de grandes volúmenes de datos aporta muchos beneficios a empresas de todo el mundo.
Ver artículoFeature engineering
Una vez la información ha sido limpiada es necesario que sea transformada para encajar con el tipo de algoritmo que vamos a emplear. En muchos casos es importante normalizarlos, es decir, hacer que todos los datos estén en la misma escala numérica.
En este punto también podemos crear nuevas características combinando features pre-existentes o aplicando algoritmos de reducción de la dimensión como PCA (Principal Component Analysis).
Finalmente los datos ya están preparados para ser empleados en alguno de los siguientes algoritmos de minería de datos.
Árboles de decisión
Los árboles de decisión son un tipo de algoritmo supervisado que genera diferentes decisiones de manera jerárquica dividiendo los datos en subconjuntos según sus características. Este tipo de modelo de machine learning puede ser usado tanto para problemas de clasificación y de regresión.
Random forest
El random forest o bosque aleatorio es un algoritmo que pertenece a los métodos ensambladores ( ensamble methods ), más concretamente al método de bagging. Estos modelos crean distintos predictores usando los árboles de decisión que hemos visto anteriormente.
Otros posts que te gustarán
De esta forma, en vez de utilizar un solo árbol de decisión para clasificar o obtener un valor de regresión, se utilizan varios árboles (de ahí el nombre de bosque) y se hace una votación. El resultado más votado gana.
Gracias a esta metodología se obtienen resultados mucho más precisos además de evitar algunos problemas que traen los árboles de decisión como el overfitting o sobreajuste del modelo .
Máquinas de vectores de soporte o support vector machines
Las máquinas de vector de soporte son un algoritmo muy usado en problemas de clasificación (aunque también sirven para regresión) dentro del machine learning y de la minería de datos.
Este método tiene como objetivo encontrar un hiperplano que separe las distintas categorías. De esta forma, cuando tenemos un nuevo punto, dependiendo de la zona donde caiga veremos si pertenece a una clase u otra.
Técnicas de clusterización
Las técnicas de clusterización pertenecen al grupo de modelos de aprendizaje autónomo no supervisados ya que no necesitan datos de entrenamiento. Las técnicas de clusterización o agrupación consisten en juntar puntos del dataset en grupos donde sus características sean similares.
Son muy utilizadas, por ejemplo, en marketing para agrupar y segmentar por tipo de cliente. De esta forma puedes personalizar mejor la publicidad que harás para cada uno. El agrupamiento es sin duda una de las técnicas más usadas en minería de datos.
Naive Bayes
El método de data mining Naive Bayes basa sus predicciones en el famoso teorema de Bayes. Es un clasificador que supone la independencia o no correlación de las características.
Funciona muy bien donde las características son completamente independientes. Además, también puede ser muy efectivo en problemas multiclase.
K-nearest neighbors
K vecinos más cercanos o K-nearest neighbors es un algoritmo supervisado de minería de datos basado en instancia.
Es un modelo muy sencillo cuyo objetivo es encontrar los puntos del dataset que están más cerca del punto que queremos predecir y clasificar dicho punto basado en la mayoría de puntos que lo rodean.
Redes Neuronales
Las redes neuronales son actualmente los algoritmos más populares en inteligencia artificial e ingeniería de datos. Estos modelos hacen uso de una red de neuronas y conexiones que imitan la funcionalidad de las neuronas de nuestro sistema nervioso.
Los datos de entrenamiento pasan a través de la compleja arquitectura de neuronas y conexiones y una vez llega al final compara el resultado con los datos de entrenamiento.
En este punto construye una función de error o coste que permite a la red optimizar sus parámetros usando lo que se conoce como backpropagation. De esta forma se consiguen resultados muy precisos y poderosos modelos de análisis de datos.
Si quieres saber más puedes visitar nuestro artículo sobre redes neuronales.