Qué es un dataset
En el blog de abdatum hemos mencionado el término de dataset en varios artículos . Los científicos de datos hemos tomado prestada esta palabra del inglés y la usamos constantemente para hablar sobre nuestros proyectos de machine learning, business intelligence o big data.
En este artículo te contaré qué es exactamente un dataset, su importancia en la ciencia de datos y dónde puedes encontrar datasets de ejemplo para que puedas observar cómo son y experimentar con ellos.
Qué son los datasets y su importancia
La palabra dataset significa literalmente conjunto de datos. Estos datos se encuentran normalmente tabulados en filas y columnas para facilitar el análisis de la información.
Todo proyecto de inteligencia artificial, o en general, que utilice datos, conseguir un buen dataset o conjunto de datos es el primer paso de toda la metodología. Todos los algoritmos de análisis de datos son altamente dependientes de la calidad de la información. Si los datos son erróneos, las conclusiones que sacaremos también serán erróneas.
Algoritmos de machine learning
Entender los algoritmos de machine learning es clave para comprender la inteligencia artificial. Aprende los métodos más utilizados del sector tecnológico.
Ver artículoPor esta razón, conseguir una fuente fiable de datos es lo más difícil del data science. Muchas veces son necesarios procesos de limpieza y transformación de los datos para mejorar su calidad y que los modelos estadísticos que generemos sean más fiables.
Tipos de conjuntos de datos o data sets
Podemos diferenciar diferentes tipos de conjuntos de datos según cómo estén estructurados y almacenados.
Archivos
Existen varios formatos de archivos que permiten guardar datos. Algunos de los formatos más usados para los datasets son .csv y .tab. La mayoría de herramientas de análisis de datos aceptan estos archivos como fuentes de datos.
Los formatos de excel como .xlsx también son archivos que pueden actuar como dataset de un proyecto de big data o análisis de datos.
Páginas web
Las webs pueden ser usadas para almacenar datos. La información se guarda en el servidor donde se aloja la web y nosotros podemos acceder a la página y extraer la información que necesitamos analizar.
Otros posts que te gustarán
Bases de datos
Las bases de datos es la forma más optimizada de guardar nuestros datasets. Normalmente, para tener una estructura tabular se emplean las denominadas bases de datos relacionales las cuales usan el modelo relacional para establecer relaciones entre las distintas tablas de información que almacena la base de datos.
Los 4 datasets más populares en ciencia de datos
- Iris dataset: este es un conjunto de datos muy usado en machine learning para hacer pruebas. Contiene información de 3 tipos de flores diferentes: longitud del sépalo, anchura del sépalo, longitud del pétalo y anchura del pétalo.
- Coco dataset: Coco es conjunto de datos de subtítulos, segmentación y detección de objetos a gran escala publicado por Microsoft. El objetivo de este dataset es proporcionar herramientas para el reconocimiento de imágenes. Es usado por equipos de visión computerizada para entrenar y probar sus modelos.
- Mnist dataset: es un gran conjunto de datos que incluye imágenes de dígitos escritos a mano. Se ha usado comúnmente para probar diferentes técnicas de multiclasificación. Algunos modelos de machine learning que se han probado son: clasificadores lineales, máquinas de vectores de soporte (support vector machines), redes neuronales profundas, redes neuronales convolucionales o bosques aleatorios (random forest). También ha sido usado para probar modelos generativos como redes neuronales adversarias o autoencoders .
- Boston housing dataset: este dataset ha sido muy utilizado para realizar benchmarks de diferentes modelos de inteligencia artificial. En él se encuentra información de algunas casas de la área de Boston. Algunos de los datos a predecir son los precios de las casas.
Dónde encontrar datasets públicos y gratuitos
Si has llegado hasta aquí seguramente te preguntes dónde puedes encontrar datasets reales para que puedas empezar a mirar cómo son y a realizar pruebas con ellos. Seguidamente te decimos 4 páginas web donde encontrarás todo tipo de conjunto de datos públicos y gratuitos.
Google dataset search
En esta página web hay un buscador donde podemos poner el nombre de la información que queremos que contenga. Google nos devolverá los resultados de donde ha encontrado la información que hemos solicitado. Es un buen lugar donde empezar a buscar conjuntos de datos para jugar y experimentar con ellos. Ver datasets.
Kaggle
Kaggle es una plataforma donde se realizan competiciones de machine learning para ver quién es capaz de generar un mejor modelo para solucionar un problema determinado. La mayoría de problemas tienen su propio dataset que puedes descargar de forma gratuita. Ver datasets.
Github
Github es un repositorio especializado en guardar código. No obstante, muchos usuarios de la plataforma también lo usan para subir información relevante. Hay algunos repositorios que contienen una lista de diferentes datasets públicos y gratuitos que podemos descargar. Uno de ellos es Awesome Public Datasets. Ver datasets.
Five Thirty Eight
Esta es una web donde utilizan información para dar conocimiento a la gente. Para que todo el mundo pueda comprobar que lo que dicen es correcto, cuelgan todos los datasets que usan para analizar la actualidad del país. Puedes acceder a esta información y usarla como conjunto de datos para hacer pruebas de análisis de datos o machine learning. Ver datasets.
Diferencia entre dataframe y dataset
Utilizaré la última sección de este artículo sobre datasets para aclarar una duda que me han preguntado varias veces. ¿Cuál es la diferencia entre dataframe y dataset?
Hemos explicado que los datasets son simplemente conjuntos de datos que se almacenan normalmente en estructura tabular, ya sea en un archivo, en una web o en una base de datos.
Los dataframes son objetos de programación que se emplean en lenguajes como R o Python. Normalmente, cuando importamos los datos en un paquete de análisis de datos, este transforma el dataset en una representación interna abstracta que en muchos paquetes de programación recibe el nombre de dataframe.
De manera sencilla, un dataframe es simplemente una representación de un dataset.