menu EXPLOREZ
history RÉCENT

Qu'est-ce qu'un ensemble de données

Sur le blog abdatum nous avons a mentionné le terme ensemble de données dans plusieurs articles . Nous, data scientists, avons emprunté ce mot à l’anglais et l’utilisons constamment pour parler de nos projets data. l'apprentissage automatique, l'intelligence d'entreprise soit Big Data.

Dans cet article Je vais vous dire ce qu'est exactement un ensemble de données, son importance dans la science des données et où vous pouvez trouver des ensembles de données. à titre d'exemple afin que vous puissiez observer à quoi ils ressemblent et les expérimenter.

Que sont les ensembles de données et leur importance

Le mot ensemble de données signifie littéralement ensemble de données. Ces données sont normalement présentées en lignes et en colonnes pour faciliter l'analyse des informations.

Chaque projet d'intelligence artificielle, ou en général, qui utilise des données, obtient un bon ensemble de données ou un bon ensemble de données C’est la première étape de toute la méthodologie. Tous les algorithmes d'analyse des données dépendent strongement de la qualité des informations. Si les données sont erronées, les conclusions que nous en tirerons le seront également.

Pour cette raison, Obtenir une source de données fiable est la chose la plus difficile en science des données. Plusieurs fois, des processus de nettoyage et de transformation des données sont nécessaires pour améliorer leur qualité et rendre plus fiables les modèles statistiques que nous générons.

Types d'ensembles de données ou d'ensembles de données

Nous pouvons différencier différents types d'ensembles de données en fonction de la manière dont ils sont structurés et stockés.

Des dossiers

Il existe plusieurs formats de fichiers qui vous permettent de sauvegarder des données. Certains des formats les plus utilisés pour les ensembles de données sont .csv et .tab. La plupart des outils d'analyse de données acceptent ces fichiers comme sources de données.

Les formats Excel tels que .xlsx sont également des fichiers qui peuvent servir d'ensemble de données pour un projet de Big Data ou d'analyse de données.

Pages Web

Les sites Web peuvent être utilisés pour stocker des données. Les informations sont enregistrées sur le serveur sur lequel le site Web est hébergé et nous pouvons accéder à la page et extraire les informations dont nous avons besoin pour analyser.

Base de données

Les bases de données sont le moyen le plus optimisé de stocker nos ensembles de données. Normalement, pour avoir une structure tabulaire, ce qu'on appelle bases de données relationnelles qui utilisent le modèle relationnel pour établir des relations entre les différentes tables d'informations stockées dans la base de données.

Les 4 ensembles de données les plus populaires en science des données

  1. Ensemble de données sur l'iris : Il s'agit d'un ensemble de données largement utilisé dans l'apprentissage automatique pour les tests. Il contient des informations sur 3 types de fleurs différents : la longueur des sépales, la largeur des sépales, la longueur des pétales et la largeur des pétales.
  2. Ensemble de données Coco : Coco est un ensemble de données de sous-titrage, de segmentation et de détection d'objets à grande échelle publié par Microsoft. L'objectif de cet ensemble de données est de fournir des outils de reconnaissance d'images. Il est utilisé par les équipes de vision par ordinateur pour former et tester leurs modèles.
  3. Ensemble de données Mnist : est un vaste ensemble de données comprenant des images de chiffres manuscrits. Il a été couramment utilisé pour tester différentes techniques de multiclassement. Certains modèles d'apprentissage automatique qui ont été testés sont : les classificateurs linéaires, les machines à vecteurs de support, les réseaux de neurones profonds, les réseaux de neurones convolutifs ou les forêts aléatoires. Il a également été utilisé pour tester des modèles génératifs tels que les réseaux de neurones adverses ou auto-encodeurs .
  4. Ensemble de données sur le logement à Boston : Cet ensemble de données a été largement utilisé pour comparer différents modèles d’intelligence artificielle. Il contient des informations sur certaines maisons de la région de Boston. Certaines des données à prédire sont les prix de l’immobilier.

Où trouver des ensembles de données publics gratuits

Si vous êtes arrivé jusqu'ici, vous vous demandez probablement où trouver de vrais ensembles de données afin de pouvoir commencer à les examiner et à effectuer des tests avec eux. Ensuite, nous vous indiquons 4 pages Web où vous trouverez tous types d'ensembles de données publics et gratuits.

Recherche d'ensembles de données Google

Sur ce site Web, il existe un moteur de recherche où nous pouvons mettre le nom de l'information que nous souhaitons qu'elle contienne. Google renverra les résultats indiquant où il a trouvé les informations que nous avons demandées. C'est un bon point de départ pour commencer à rechercher des ensembles de données avec lesquels jouer et expérimenter. Afficher les ensembles de données.

Kaggle

Kaggle est une plate-forme sur laquelle des concours d'apprentissage automatique sont organisés pour voir qui est capable de générer un meilleur modèle pour résoudre un problème donné. La plupart des problèmes disposent de leur propre ensemble de données que vous pouvez télécharger gratuitement. Afficher les ensembles de données.

GitHub

Github est un référentiel spécialisé dans la sauvegarde de code. Cependant, de nombreux utilisateurs de la plateforme l’utilisent également pour télécharger des informations pertinentes. Certains référentiels contiennent une liste de différents ensembles de données publics et gratuits que nous pouvons télécharger. L’un d’eux est Awesome Public Datasets. Afficher les ensembles de données.

cinq trentehuit

Il s'agit d'un site Web sur lequel ils utilisent des informations pour transmettre des connaissances aux gens. Afin que chacun puisse vérifier que ce qu’il dit est correct, ils publient tous les ensembles de données qu’ils utilisent pour analyser l’actualité du pays. Vous pouvez accéder à ces informations et les utiliser comme ensemble de données pour effectuer des analyses de données ou des tests d'apprentissage automatique. Afficher les ensembles de données.

Différence entre le dataframe et l'ensemble de données

J'utiliserai la dernière section de cet article sur les ensembles de données pour clarifier une question qui m'a été posée à plusieurs reprises. Quelle est la différence entre dataframe et dataset ?

Nous avons expliqué que les ensembles de données sont simplement des ensembles de données qui sont normalement stockées sous forme de tableau, soit dans un fichier, sur un site Web ou dans une base de données.

Les dataframes sont des objets de programmation utilisés dans des langages tels que R ou Python. Normalement, lorsque nous importons des données dans un package d'analyse de données, cela transforme l'ensemble de données en une représentation interne abstraite qui, dans de nombreux packages de programmation, est appelée dataframe.

En termes simples, un dataframe est simplement une représentation d'un ensemble de données.