Aller au contenu principal

Taille d'échantillon et puissance pour une régression logistique dans Excel

Ce tutoriel explique comment calculer et interpréter une taille d’échantillon et une puissance pour une régression logistique avec Excel en utilisant XLSTAT.

Qu'est-ce que la puissance d'un test statistique ?

XLSTAT, dans son module Modélisation des données, propose un outil permettant d'appliquer un modèle de régression logistique entre une variable réponse binaire et des variables explicatives quantitatives ou qualitatives. XLSTAT permet également d'estimer la puissance ou de calculer le nombre d'observations nécessaires dans le cadre de cette méthode.
Lorsqu'on teste une hypothèse à l'aide d'un test statistique, on a plusieurs éléments à choisir :

  • L'hypothèse nulle H0 et l'hypothèse alternative Ha.

  • Le test statistique à utiliser.

  • L'erreur de première espèce (erreur de type I) que l'on appelle aussi alpha. Elle se produit lorsqu'on rejette l'hypothèse nulle alors qu'elle est vraie. Elle est fixée a priori pour chaque test et vaut 5%.

L'erreur de seconde espèce ou beta est moins étudiée, mais elle revêt une grande importance. En effet, elle représente la probabilité que l'on ne rejette pas l'hypothèse nulle alors qu'elle est fausse. On ne peut pas la fixer a priori mais, on peut essayer de la minimiser, en jouant sur les autres paramètres du modèle. La puissance d'un test est calculée comme 1-beta et représente la probabilité que l'on rejette l'hypothèse nulle alors qu'elle est bien fausse.
On voudra donc maximiser la puissance du test. XLSTAT permet de calculer cette puissance (ainsi que beta) lorsque les autres paramètres du test sont connus. D'autre part, il permet pour une puissance donnée d'évaluer la taille de l'échantillon nécessaire à l'obtention de cette puissance.
Les calculs de puissance en statistique se font généralement avant que l'expérience ne soit menée. On s'en sert principalement pour estimer le nombre d'observations nécessaires pour que l'expérience ait la qualité statistique requise.

But de ce tutoriel

Dans une future étude, on souhaite étudier la relation entre la survenue d’un cancer et le suivi d’un certain régime d’alimentation. La probabilité de référence de survenue de ce cancer est de 6%. On suppose que l**’odds ratio** est de 2, et que 25% des personnes présentes dans l’échantillon suivent ce régime.
Dans ce tutoriel, on va chercher à savoir quelle est la bonne taille d’échantillon pour réaliser cette étude et obtenir une puissance de test de 0.9.

Paramétrer le calcul de la taille de l'échantillon nécessaire dans le cadre d’une régression logistique

Une fois XLSTAT lancé, cliquez sur l'icône Puissance et choisissez la fonction régression logistique.

Calcul de puissance dans le Menu XLSTAT pour la régression logistique

Une fois le bouton cliqué, la boîte de dialogue apparaît.

Vous devez alors choisir l'objectif Trouver la taille de l'échantillon.

L'alpha est de 0.05. La puissance recherchée est de 0.9.

Comme expliqué plus tôt, on prend une probabilité de référence à 0.06 et un odds ratio de 2.
Onglet Général pour le calcul de taille d'échantillon pour la régression logistique
Dans l'onglet Graphique, l'option graphique de simulation est activée et on représentera la taille de l'échantillon 1 sur l'axe vertical et la puissance sur l'axe horizontal.

La puissance varie entre 0.8 et 0.95 avec un pas de 0.01.
Onglet Graphique pour le calcul de taille d'échantillon pour la régression logistique
Une fois que vous avez cliqué sur le bouton OK, les calculs sont effectués, puis les résultats sont affichés.

Interpréter les résultats du calcul de la taille de l'échantillon nécessaire dans le cadre d’une régression logistique

Le premier tableau rassemble les paramètres utilisés en entrée.

Tableau retourné par le calcul de taille d'échantillon pour la régression logistique

Le second tableau rassemble les résultats du calcul ainsi qu'une interprétation des résultats.

Résultats du calcul de taille d'échantillon pour la régression logistique

On voit qu'il faut 3011 observations par échantillon pour obtenir une puissance la plus proche possible de 0.9.

Le tableau suivant rassemble les calculs obtenus pour chaque valeur de la puissance comprise entre 0.8 et 0.95.

Différentes tailles d'échantillon selon les puissances pour la régression logistique

Le graphique de simulation montre l'évolution de la taille de l'échantillon en fonction de la puissance. On voit que pour une puissance de 0.8, il suffit de 2190 observations et que pour une puissance de 0.95 on arrive à 3788 observations.

Graphique de l'évolution de la taille de l'échantillon en fonction de la puissance pour la régression logistique dans XLSTAT

XLSTAT est donc un outil puissant aussi bien pour rechercher la taille de l'échantillon requise pour une analyse que pour calculer la puissance d'un test. Si l’on n’est pas sûrs de nos paramètres d’échantillon, il est aussi possible de relancer l’analyse avec un odds ratio ou un pourcentage de N avec X1=1 différents, ce qui pourra nous rassurer sur la taille d’échantillon à choisir.

Cet article vous a t-il été utile ?

  • Oui
  • Non