Aller au contenu principal

Quelle méthode d'analyse multivariée choisir ?

Choix d'une technique d'analyse de données multivariées

Ici nous définissons les jeux de données multivariés (ou multidimensionnels) en tant que jeux de données contenant plus de 2 variables (généralement en colonnes) mesurées sur plus de deux unités statistiques (individus, patients, sites…), généralement en lignes. Les techniques d’analyse de données multivariées (aussi appelés outils de data mining) permettent d’extraire facilement de l’information intéressante au sein de tableaux difficilement lisibles à l’état brut.

La grille qui suit vous aidera à choisir une méthode de data mining appropriée en fonction du type de problématique que vous souhaitez aborder (exploratoire ou décisionnelle) ainsi que de la structure de vos données. La liste présentée n’est pas exhaustive. Cependant, elle contient les méthodes les plus couramment utilisées, toutes disponibles dans XLSTAT.

Nous avons divisé les problématiques en deux types :

  • Les problématiques exploratoires, qui permettent d’aborder des jeux de données multivariées sans considérer d’hypothèse particulière à valider. Les techniques exploratoires d’analyse de données multivariées impliquent souvent une réduction de la dimensionalité de jeux de données volumineux rendant leur exploration plus facile.

  • Les problématiques décisionnelles qui impliquent de tester le lien entre deux groupes de variables (correlation) ou d’expliquer une variable ou un groupe de variables par un autre groupe (causalité).

La grille

Problématique Nombre de tableaux Description des données Outil Remarques
Exploratoire 1 Variables quantitatives uniquement Analyse en Composantes Principales (ACP) Prend en compte toute la variance comprise dans les données ; les composantes ne reflètent pas nécessairement des phénomènes réels
Exploratoire 1 Variables quantitatives uniquement Analyse factorielle Prend en compte uniquement la covariance entre variables ; les facteurs latents reflètent des phénomènes réels
Exploratoire 1 Matrice de proximité Multidimensional scaling (MDS) /Analyse en Coordonnées Principales (PCoA)
Exploratoire 1 Tableau de contingence (deux variables qualitatives) Analyse Factorielle des Correspondances (AFC)
Exploratoire 1 Variables qualitatives uniquement Analyse des Correspondances Multiples (ACM)
Exploratoire 1 Variables quantitatives et qualitatives Analyse factorielle de données mixtes (PCAmix) Contrairement à l'AFM, les données ne sont pas structurées en groupes
Exploratoire ≥2 Tableaux de variables quantitatives et-ou tableaux de variables qualitatives et-ou tableau de fréquences Analyse Factorielle Multiple (AFM)
Exploratoire ≥2 Tableaux de variables quantitatives Analyse Procrustéenne Généralisée Peut comprendre une partie inférentielle : le test de consensus
Exploratoire (classification) 1 Variables quantitatives uniquement Méthodes de classification (CAH, k-means...) Les méthodes classiques de classification peuvent être indirectement appliquées sur un tableau de variables qualitatives, en utilisant les scores des lignes sur les composantes d'une Analyse des Correspondances Multiples.
décisionnelle (causalité) 1 Une variable à expliquer et plusieurs variables explicatives quantitatives et-ou qualitatives Modélisation statistique(régression, ANCOVA…)
décisionnelle (corrélation) ou exploratoire 2 Deux tableaux de variables quantitatives Analyse Canonique des Corrélations Liens linéaires entre les deux tableaux
décisionnelle (causalité) ou exploratoire 2 Un tableau de contingence Y (souvent une matrice sites-espèces) et un tableau explicatif (X) de variables quantitatives et-ou qualitatives Analyse Canonique des Correspondances Liens unimodaux entre X et Y ; peut être utilisé pour décrire les niches d'espèces le long de gradients environnementaux
décisionnelle (causalité) 2 Un tableau de variables à expliquer (Y) et un tableau explicatif (X) de variables explicatives quantitatives et-ou qualitatives Analyse de Redondance Liens linéaires entre X et Y
décisionnelle (causalité) 2 Un tableau de variables à expliquer (Y) et un tableau explicatif (X) de variables explicatives quantitatives et-ou qualitatives Régression par les Moindres Carrés Partiels (PLS) Utilisée surtout pour prédire
décisionnelle (causalité) ≥2 Plusieurs tableaux de variables manifestes, chaque tableau représentant une variable latente Modèles d'équations structurelles(approche PLS-PM)

Cet article vous a t-il été utile ?

  • Oui
  • Non