Aller au contenu principal

Régression LASSO dans Excel

Ce tutoriel explique comment mettre en place et interpréter une régression LASSO dans Excel en utilisant le logiciel de statistiques XLSTAT.

Jeu de données pour réaliser une régression LASSO

Les données originales sont dues à Osborne et al. (1984). Le jeu de données contient, pour 30 cookies, les discrétisations de spectres en proche infra-rouge. Le spectre est observé sur toutes les longueurs d’ondes comprises entre 1100 et 2460 nanomètres, avec un espacement de 40 nanomètres entre chaque longueur d’onde, ce qui fait donc 35 variables explicatives dans le jeu de données. Le tableau de données contient, également, la composition en eau de chacun des cookies.

Le but est de prédire la composition des différents cookies en eau.

But de ce tutoriel

Le but de ce tutoriel est d’apprendre à mettre en place et interpréter une régression LASSO sur le jeu de données Cookies.

Paramétrer la régression LASSO

Une fois XLSTAT lancé, cliquez sur Modélisation des données / Régression LASSO comme indiqué ci-dessous :

LAS_FR_Ribbon.PNG
Une fois que vous avez cliqué sur le bouton, la boîte de dialogue de la régression LASSO apparaît.

Vous pouvez alors sélectionner les données sur la feuille Excel. La Variable dépendante correspond à la variable expliquée (ou variable à modéliser), qui est dans ce cas précis la composition en eau des cookies.

Les Variables quantitatives explicatives correspondent à toutes les colonnes numérotées de L1 à L35. On veut ici expliquer la variabilité de la contenance en eau dans les cookies en fonction du spectre.

On ne sélectionne que les 20 premiers cookies du jeu de données pour participer à la modélisation, les autres serviront à la prédiction.

Comme le nom de chaque variable est présent au début du fichier, assurez-vous que la case Libellés des variables est cochée.

Vous pouvez, également, cocher la case Libellés des observations et sélectionner le nom des différents cookies.

LAS_FR_General.PNG
Dans l'onglet Options, on utilise la validation croisée pour trouver le paramètre de régularisation lambda optimal. On choisit de former 5 blocs pour la validation croisée et de tester 100 valeurs de lambda.

LAS_FR_Options.PNG
Dans l’onglet Prédiction, sélectionnez les données sur lesquelles vous souhaitez obtenir une prédiction. On sélectionne, ici, les 10 derniers cookies composant le jeu de données.

LAS_FR_Prediction.PNG
Dans l’onglet Sorties, sélectionnez les sorties comme indiqué ci-dessous :

LAS_FR_Outputs.PNG
Dans l’onglet Graphiques, vous pouvez activer l’option Evolution de la MCE (Validation croisée) qui permet d’avoir accès à l’évolution de la MCE (Moyenne des Carrés des Erreurs) en fonction du paramètre de régularisation.

Les calculs démarrent lorsque vous cliquez sur OK. Les résultats sont ensuite affichés.

Interpréter les résultats d’une régression LASSO

Le tableau « Paramètres du modèle » fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions ou pour analyser l’importance des variables. Nous voyons que seules 9 des 35 variables ont été conservées dans la modélisation, les autres possèdent un coefficient nul.

LAS_FR_TAB1.PNG
Le graphique suivant affiche l’évolution de la MCE en fonction du paramètre de régularisation Lambda. La valeur de Lambda sélectionnée par XLSTAT est celle qui minimise la MCE, soit ici la valeur 0,01.

LAS_FR_CHART1.PNG
Le dernier tableau donne, suite à l’estimation du modèle, les prédictions de la composition en eau des 10 cookies composant le jeu de données de prédiction.

LAS_FR_TAB2.PNG

Conclusion sur la régression LASSO

Finalement, la régression LASSO a modélisé la composition en eau des différents cookies avec seulement 9 des 35 variables à disposition : les autres variables étant été jugées pas assez explicatives ou bien contenant une information trop similaire à une variable déjà sélectionnée.

Cet article vous a t-il été utile ?

  • Oui
  • Non