menu EXPLOREZ
history RÉCENT

Biais dans les statistiques et l'apprentissage automatique

En statistique et plus particulièrement dans le monde du machine learning, il est important de connaître les limites des modèles.

Pendant la formation, différents problèmes peuvent empêcher l’algorithme d’apprendre correctement, générant des erreurs qui entraîneront une mauvaise prédiction des résultats.

L’une des erreurs les plus fréquentes est ce que l’on appelle le biais. Un modèle biaisé générera un résultat inexact par rapport à la réalité.

Pour cette raison, il est important de poser un diagnostic et d’évaluer les modèles de machine learning une fois formés. Si nous détectons une erreur, nous pouvons agir et la résoudre avant de la mettre en production, ce qui pourrait affecter l'entreprise.

Dans cet article, nous verrons ce qu'est un biais ou un modèle biaisé et nous apprendrons comment le détecter et le gérer pour améliorer sa précision.

Qu’est-ce que le biais dans l’apprentissage automatique ?

Le biais peut être considéré comme un modèle qui n’a pas pris en compte toutes les informations disponibles dans l’ensemble de données et qui est donc trop pauvre pour faire des prédictions précises.

Ceci est connu sous le nom de sous-ajustement et se produit lorsque le modèle est trop simple pour que le problème puisse être résolu.

Il existe différentes manières de détecter les biais. L’un d’eux consiste à générer des courbes d’apprentissage. (Dans l'article de qu'est-ce que le surapprentissage il est mieux expliqué de quoi il s'agit).

Si la courbe de validation et la courbe d'entraînement présentent un petit écart et une erreur importante, cela signifie que le modèle est trop médiocre et peut donc souffrir de sous-ajustement, indiquant qu'il existe un problème de biais.

Comment améliorer un modèle biaisé

Une fois que nous avons détecté le problème, nous devons agir. Pour améliorer un modèle biaisé, nous pouvons étendre la taille de l'ensemble de formation. De cette façon, nous forcerons le modèle à apprendre des modèles plus complexes et à réduire le sous-apprentissage.

Cependant, les données sont souvent limitées et il n’est pas possible d’en obtenir davantage.

Une autre option consiste à essayer d’autres techniques d’apprentissage automatique ou d’apprentissage profond qui permettent une plus grande flexibilité et complexité du modèle.

De nombreux algorithmes d’intelligence artificielle disposent d’hyperparamètres réglables avec lesquels on peut jouer pour réduire les biais et augmenter la complexité du modèle.

L'augmentation des données et la génération de données synthétiques sont une autre option. Comme nous l’avons mentionné, nous ne pouvons souvent pas obtenir plus d’informations que celles dont nous disposons déjà car les ensembles de données sont limités.

Cependant, nous pouvons utiliser différentes techniques pour générer des données synthétiques. L’un d’eux est l’augmentation des données. Ceci est particulièrement utilisé dans les images où nous pouvons les faire pivoter, les couper, zoomer ou utiliser des filtres pour générer de nouvelles images à partir d'images existantes.

Pour d'autres types de données, nous pouvons utiliser des algorithmes d'interpolation tels que SMOTE ou ADASYN, appelés techniques de suréchantillonnage.

Différences entre biais et variance

Lorsque nous essayons de résoudre le problème des préjugés, nous devons faire attention à ne pas obtenir le contraire. Si l’on réajuste beaucoup les paramètres et donne beaucoup de flexibilité au modèle, on pourrait passer d’un modèle trop simple (sous-ajustement) à un modèle trop complexe (surajustement). Ce dernier serait un modèle avec une variance élevée et un faible biais.

Une variance élevée signifie que le modèle construit est trop complexe et très spécifique pour nos données d'entraînement, il aurait donc du mal à généraliser aux informations qu'il n'a pas vues pendant l'entraînement.

Pour cette raison, il est important de diagnostiquer les modèles et d’essayer d’atteindre un équilibre entre biais (sous-ajustement) et variance (surajustement).