Qu'est-ce que la modélisation statistique?

Cet article explique l'objectif de la modélisation statistique et fournit une théorie de base ainsi que des exemples concrets.

Qu’est-ce que la modélisation statistique ?

La modélisation statistique est une manière simplifiée et formalisée mathématiquement de s’approcher de la réalité et, en d’autres termes, de décrire les processus qui génèrent vos données. De façon optionnelle, elle permet de faire des prédictions à partir de cette approximation. Le modèle statistique est l’équation mathématique utilisée.

Quel est l'objectif d'une modélisation statistique ?

Voici un exemple simple : nous cherchons à décrire le poids d’une variété de pomme de terre. Nous présentons une manière compliquée et une manière simple d’aboutir à notre objectif. La manière compliquée est de mesurer le poids de toutes les pommes de terre appartenant à cette variété à travers le monde et d’afficher les données sur un grand tableau Excel en guise de description de ce poids. La manière simple est de sélectionner un échantillon représentatif de 30 pommes de terre de cette variété, de calculer la moyenne et l’écart type de cet échantillon et d’utiliser uniquement ces deux chiffres pour décrire approximativement le poids de cette variété. Représenter une quantité par une moyenne et un écart type est un cas très simple de modélisation.

Voici un autre exemple : après une expérience effectuée sur un échantillon de plantes soumises à une humidité croissante, nous représentons la relation entre la hauteur de plantes et l’humidité du sol par une ligne droite caractérisée par une pente et une ordonnée à l’origine. Ce modèle particulier est la régression linéaire simple.

Simple linear regression

Qu’est-ce qu’une variable dépendante et qu’est-ce qu’une variable explicative ?

Dans la grande majorité des cas, les modèles statistiques impliquent des variables explicatives et dépendantes.

Une variable dépendante, aussi appelée variable à expliquer, est une variable que nous cherchons à décrire, à expliquer, à prédire. Elle est souvent représentée sur l’axe des ordonnées dans les graphiques de modélisation. Dans l’exemple de la régression linéaire simple sur les plantes, la variable dépendante est la hauteur de plante.

Les variables explicatives, appelées également variables indépendantes, sont celles que nous utilisons dans le but d’expliquer, de décrire ou de prédire la ou les variable(s) dépendante(s). Les variables explicatives sont généralement représentées sur l’axe des abscisses. L’exemple sur la hauteur de plante implique une variable explicative unique, quantitative : l’humidité du sol.

Dans un modèle donné, les variables dépendantes et les variables explicatives peuvent être uniques ou multiples et de type quantitatif ou qualitatif. Il existe des modèles adaptés à chaque situation.

Que faire si j’ai davantage de variables explicatives que d’observations ?

La présence d’un grand nombre de variables explicatives peut présenter une difficulté lors d’analyses statistiques classiques telles que la régression linéaire. Pour résoudre ce problème, il existe des méthodes qui supposent que seule une partie des variables explicatives à disposition est en réalité pertinente pour modéliser la variable dépendante : il s’agit des régressions Régression LASSO, Régression Ridge et Régression Elastic net.

Qu’est-ce qu’un paramètre dans un modèle statistique ?

Dans la modélisation classique (paramétrique), la (ou les) variable(s) dépendante(s) est liée aux variables explicatives à travers une équation (le modèle) impliquant des quantités appelées paramètres du modèle. Dans l’exemple de la régression linéaire sur la hauteur de la plante, les paramètres sont l’ordonnée à l’origine et la pente. L’équation peut s’écrire de la sorte :

Hauteur = ordonnée à l’origine + pente*humidité

Des calculs permettent d’estimer les paramètres du modèle. Ces estimations peuvent être utilisées pour effectuer des prédictions.

La régression linéaire simple implique également un troisième paramètre, la variance des résidus (voir paragraphe qui suit).

Qu’est-ce qu’un résidu dans un modèle statistique ?

Techniquement, les résidus (ou erreurs) d’un modèle sont les distances entre les données et le modèle lui-même (représenté par la droite linéaire dans l’exemple sur la hauteur de plantes).

Model residuals

Les résidus représentent la part de variabilité des données n’ayant pas pu être capturée par le modèle. La statistique du R² est la part de variabilité expliquée par le modèle. Plus les résidus sont faibles, plus le R² est élevé.

Comparison between two r square

Quel outil de modélisation statistique choisir ?

Le choix d'un modèle statistique n'est pas toujours intuitif. Il est faux de croire qu'il existe un modèle approprié pour chaque ensemble de données. Le schéma des associations entre les variables dépendantes et explicatives peut guider la sélection d'un modèle statistique. Une analyse graphique de ces relations peut être très utile. Dans certains cas, les modèles polynomiaux ou non linéaires peuvent être plus appropriés que les modèles linéaires si ces formes sont courbées. Le problème que vous étudiez peut également avoir une influence directe sur le modèle que vous choisissez.

Cette grille vous guidera dans la sélection des modèles les plus couramment utilisés, en fonction du type et du nombre de variables dépendantes et indépendantes, mais également du contexte. Des solutions autres que les modèles paramétriques sont par ailleurs proposées.

Comment faire une modélisation statistique ?

Vous n'avez pas besoin d'apprendre les formules par cœur ! XLSTAT met à votre disposition des boîtes de dialogue faciles à utiliser qui vous permettent de créer des modèles puissants en sélectionnant simplement vos données dans Excel.

Ainsi, vous avez accès à différents modèles statistiques tels que :
L’ANOVA à un facteur et tests de comparaisons multiples, la régression linéaire simple, mais également les Modèles mixtes à composantes aléatoires et la Régression non linéaire.

Lorsque vous lancez un modèle de régression, il vous suffit alors de sélectionner vos variables dans la feuille de données. Par exemple, dans la Régression logistique, vos variables réponses peuvent être quantitatives mais aussi binaires, ordinales ou multinominales tandis que vos variables explicatives peuvent être quantitatives ou qualitatives selon le modèle.

En plus des modèles de régression linéaire standards, XLSTAT propose aussi une large gamme d'algorithmes d'apprentissage automatique supervisé pour les problèmes de classification et de régression tels que les Forêts Aléatoires, les Machines à Vecteurs de Support, les K plus proches voisins (KNN).

Ces outils sont disponibles sous le menu Machine Learning :

Applications de la modélisation statistique avec XLSTAT

Plus de 30 tutoriels avec des exemples d’application sont disponibles dans le Centre d'aide de XLSTAT.

Cet article vous a t-il été utile ?

Qu'est-ce que la modélisation statistique?