Quel outil de modélisation statistique choisir ?

Pour une introduction courte et simple à la modélisation statistique, veuillez vous référer à cet article .

Guide de choix d’outil de modélisation statistique en fonction de la situation

Il est erroné de penser qu’à chaque jeu de données correspond un modèle adapté. Chaque type de modèle répond à des questions spécifiques. Par exemple, la glycémie liée à un diabète particulier peut être expliquée par une variable qualitative (le sexe par exemple). Dans cette situation, le modèle ANOVA peut être utilisé. Nous pouvons utiliser les mêmes données de glycémie avec des données d’âge (variable quantitative) pour voir s’il existe une augmentation ou diminution linéaire de cette glycémie en fonction de l’âge. Dans cette situation, la régression linéaire simple serait plus appropriée.

Le choix d’un modèle statistique peut aussi être inspiré par la forme des relations entre variables à expliquer et variables explicatives. Un examen graphique de ces relations peut s’avérer très utile. Ces formes peuvent être curvilignes, ce qui suggère que l’utilisation de modèles polynomiaux ou non-linéaires pourrait être plus appropriée que les modèles linéaires.

Le choix d’un modèle peut aussi être intimement lié à la question très spécifique de l’étude. Par exemple, l’estimation des paramètres Vmax et Km d’une cinétique enzymatique de Michaelis-Menten implique obligatoirement la prise en compte de l’équation de Michaelis-Menten. Cette équation lie le temps de réaction (variable à expliquer) à la concentration de substrat (variable explicative) de manière non-linéaire.

Si l’objectif de l’étude est uniquement d’effectuer des prédictions à partir d’un grand nombre de variables possiblement corrélées, alors des solutions autres que les modèles paramétriques peuvent être envisagées. Par exemple, la régression par les moindres carrés partiels (PLS) est très utilisée en chimiométrie, où il est souvent question d’expliquer des variables par un large spectre de longueurs d’onde.

Combien de paramètres faut-il inclure dans le modèle ?

Une fois que l’outil de modélisation a été choisi, souvent la question du nombre de paramètres à inclure dans le modèle se pose. Plus le nombre de paramètres est élevé, meilleure est l’adéquation du modèle aux données (résidus plus faibles donc R² plus élevé). Un modèle trop adapté à un jeu de données particulier n’est pas souhaitable car il serait trop représentatif de ce jeu de données, et la généralisation à toute la population sera moins précise.

La qualité d’un modèle peut se traduire par un compromis entre une bonne adéquation du modèle aux données et un nombre minimal de paramètres. Cette qualité peut se mesurer grâce à des indices. Les plus populaires sont l’AIC (Akaike’s Information Criterion) et le BIC (ou SBC, Bayesian Information Criterion). Lorsque différents modèles paramétriques sont comparés, le modèle associé à l’AIC ou au BIC le plus faible a la meilleure qualité parmi les modèles comparés. Ces indices sont des indices de qualité relative. Leur interprétation n’a pas de sens si uniquement un seul modèle est pris en compte.

La grille

La grille ci-dessous vous aidera à choisir un modèle statistique qui pourrait être approprié selon votre situation (types et nombres de variables dépendantes et explicatives). La grille inclut également des exemples pour chaque situation.

Les conditions de validité de modèles paramétriques sont listées dans le paragraphe suivant la grille.

Les solutions affichées sont les plus courantes en statistiques. Elles sont toutes disponibles dans XLSTAT. La liste n’est pas exhaustive. D’autres solutions existent.

Variable(s) à expliquer	variable(s) explicative(s)	Exemple	Modèles paramétriques	Conditions d'application	Autres solutions
Une seule variable quantitative	une variable qualitative (= 1 facteur) à deux modalités	Effet de la contamination (oui / non) sur la concentration d'un élément trace dans des plantes	ANOVA un facteur 2 modalités	1 ; 2 ; 3 ; 4	Test de Mann-Whitney
	une variable qualitative à k modalités	Effet d'un site (4 usines) sur la concentration d'un élément trace dans des plantes	ANOVA à un facteur	1 ; 2 ; 3 ; 4	Test de Kruskal-Wallis
	plusieurs variables qualitatives à k modalités	Effets croisés du site et de l'espèce de plante sur la concentration d'un composé dans la plante	ANOVA à plusieurs facteurs (plan factoriel)	1 ; 2 ; 3 ; 4
	une variable quantitative	effet de la température sur la concentration d'une protéine	régression linéaire simple ; modèles non linéaires (en fonction de la forme de la relation entre var. à expliquer et var. explicative)	1 - 3	régression non paramétrique ();régression quantile ; arbres de régression() ; K plus proches voisins (*)
	plusieurs variables quantitatives	Effets de la concentration de différents contaminants sur la biomasse	régression linéaire multiple ; modèles non-linéaires	1 - 6	régression PLS(*); Lasso; Ridge; Elastic Net
	mélange variables qualitatives / quantitatives	Effets croisés du sexe et de l'âge sur la glycémie associée à un type de diabète	ANCOVA	1 - 6	régression PLS () ; régression quantile ; arbres de régression(); ();Forêts aléatoires de régression (); Lasso; Ridge; Elastic Net
Plusieurs variables quantitatives	qualitative(s) et/ou quantitative(s)	Effet d'une matrice de variables environnementale sur le transcriptome	MANOVA	1 ; 4 ; 7 ; 8	Analyse canonique des corrélations ; régression PLS (*)
Une seule variable qualitative	qualitative(s) et/ou quantitative(s)	Effet d'une dose de poison sur la survie / la mort de souris	Régression logistique (binomiale ou ordinale ou multinomiale )	5 ; 6	PLS-DA () ; Analyse discriminante () ; Arbres de classification(); Forêts aléatoires de classification ()
Une seule variable type comptages (avec bcp de 0)	qualitative(s) et/ou quantitative(s)	Effet d'une dose de poison sur le nombre de nécroses chez la souris	Régression log-linéaire (Poisson)	5 ; 6

(*) solutions conçues surtout pour les prédictions

Conditions de validité

Les conditions de validité suggérées sont uniquement des pistes qui peuvent changer en fonction du type de données et des domaines d'application spécifiques. Il est vivement recommandé de se référer aux recommandations propres à vos domaines.

Conditions d'application

Les individus sont indépendants
Variance(s) homogène(s)
Les résidus suivent une distribution normale
Au moins 20 individus dans le dispositif (recommandé)
Absence de multicollinéarité (si l'objectif est d'estimer les paramètres)
Pas plus de variables explicatives que d'individus
Normalité multivariée des résidus
Variance homogène au sein de chaque variable à expliquer. Corrélations homogènes entre les variables à expliquer.

Cet article vous a t-il été utile ?

Quel outil de modélisation statistique choisir ?

Guide de choix d’outil de modélisation statistique en fonction de la situation

Combien de paramètres faut-il inclure dans le modèle ?

La grille

Conditions de validité

Articles similaires