Aller au contenu principal

Comparaison d’algorithmes de Machine Learning supervisé

Les deux grilles suivantes comparent les principaux algorithmes de Machine Learning supervisé disponibles dans XLSTAT. Une grille est destinée aux problématiques de classification (Y qualitative), l'autre aux problématiques de régression (Y quantitative). Consulter cet article pour une introduction aux principes de Machine Learning supervisé.

Les algorithmes sont comparés selon différents critères

  • Fonctionnent-ils avec plus de variables que d'observations ?
  • S'adaptent-ils facilement aux relations non linéaires entre les prédicteurs et Y ?
  • L'algorithme peut-il être utilisé à des fins explicatives ? En d'autres termes, peut-il être utilisé pour décrire l’influence relative des prédicteurs sur Y ?
  • Peuvent-ils détecter et apprendre automatiquement les interactions entre les prédicteurs ?

Algorithmes de classification

Algorithme Fonctionne avec plus de variables que d'observations ? S'adapte à des situations non-linéaires ? Intelligibilité explicative Apprend les interactions pertinentes parmi les prédicteurs ? Hyperparamètres principaux Menu XLSTAT Remarques
Régression logistique Non - +++ Non Aucun Modélisation des données Bonne intelligibilité explicative (coefficients log-odds et p-values)
Régression pénalisée (Ridge, Lasso, Elastic Net) Oui - ++ Non lambda, alpha XLSTAT-R, glmnet Sélectionner les familles binomiale ou multinomiale
Analyse Discriminante linéaire Non - + Non Aucun Analyse des données / Analyse Factorielle Discriminante ; Onglet options : activer égalité des matrices de covariance
Analyse Discriminante quadratique Non + + Non Aucun Analyse des données / Analyse Factorielle Discriminante ; Onglet options : désactiver égalité des matrices de covariance
Analyse Discriminante par les Moindres Carrés Partiels (PLS-DA) Oui - + Non Nombre de composantes Modélisation des données Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie)
Modèle Additif Généralisé (GAM) Non ++ + Non Méthode, ajouter une pénalité supplémentaire XLSTAT-R, gam
Classifieur Bayésien Naïf Oui - - Non Paramètre de lissage Machine Learning Calculs rapides sur jeux de données volumineux
Machines à Vecteurs de Support (SVM) Oui ++ (noyau RBF recommandé pour les situations non-linéaires) - Non C, noyau et hyperparamètres propres aux noyaux Machine Learning Calculs intensifs sur jeux de données volumineux
K Plus Proches Voisins (KNN) Oui ++ - Non Nombre de voisins Machine Learning
Arbres de Classification (C&RT) Oui ++ ++ Oui CP Machine Learning Ramifications binaires à chaque noeud
Arbres de Classification (CHAID) Oui ++ ++ Oui CP Machine Learning Ramifications multiples à chaque noeud
Forêts Aléatoires de Classification (Random Forests) Oui ++ + Oui CP, mtry Machine Learning Meilleure performance prédictive que celle des arbres de classification
Réseaux de Neurones Artificiels (ANN) Oui ++ - Oui Architecture du réseau, fonction d'erreur, fonctions d'activation XLSTAT-R, neuralnet Nécessite expertise avancée

Algorithmes de régression

Algorithme Fonctionne avec plus de variables que d'observations ? S'adapte à des situations non-linéaires ? Intelligibilité explicative Apprend les interactions pertinentes parmi les prédicteurs ? Hyperparamètres principaux Menu XLSTAT Remarques
Régression linéaire Non - +++ Non Aucun Modélisation des données Bonne intelligibilité explicative (coefficients de pentes et p-values)
Régression pénalisée (Ridge, Lasso, Elastic Net) Oui - ++ Non Lambda, alpha XLSTAT-R, glmnet Sélectionner famille Gaussienne
Régression quantile Oui - + Non Aucun Modélisation des données
Modèle Additif Généralisé (GAM) Non ++ + Non Méthode, ajouter une pénalité supplémentaire XLSTAT-R, gam
Régression PLS (Moindres Carrés Partiels) Oui - + Non Nombre de composantes Modélisation des données Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie)
Régression sur les Composantes Principales (PCR) Oui - + Non Standardisation des variables Modélisation des données / Régression PLS
K Plus Proches Voisins (KNN) Oui ++ - Non Nombre de voisins Machine Learning
Arbres de Régression (C&RT) Oui ++ ++ Oui CP Machine Learning Ramifications binaires à chaque noeud
Arbres de Régression (CHAID) Oui ++ ++ Oui CP Machine Learning Ramifications multiples à chaque noeud
Forêts Aléatoires de Régression (Random Forests) Oui ++ + Oui CP, mtry Machine Learning Meilleure performance prédictive que celle des arbres de régression
Réseaux de Neurones Artificiels (ANN) Oui ++ - Oui Architecture du réseau, fonction d'erreur, fonctions d'activation XLSTAT-R, neuralnet Nécessite expertise avancée

Cet article vous a t-il été utile ?

  • Oui
  • Non