Comparaison d’algorithmes de Machine Learning supervisé

Les deux grilles suivantes comparent les principaux algorithmes de Machine Learning supervisé disponibles dans XLSTAT. Une grille est destinée aux problématiques de classification (Y qualitative), l'autre aux problématiques de régression (Y quantitative). Consulter cet article pour une introduction aux principes de Machine Learning supervisé.

Les algorithmes sont comparés selon différents critères

Fonctionnent-ils avec plus de variables que d'observations ?
S'adaptent-ils facilement aux relations non linéaires entre les prédicteurs et Y ?
L'algorithme peut-il être utilisé à des fins explicatives ? En d'autres termes, peut-il être utilisé pour décrire l’influence relative des prédicteurs sur Y ?
Peuvent-ils détecter et apprendre automatiquement les interactions entre les prédicteurs ?

Algorithmes de classification

Algorithme	Fonctionne avec plus de variables que d'observations ?	S'adapte à des situations non-linéaires ?	Intelligibilité explicative	Apprend les interactions pertinentes parmi les prédicteurs ?	Hyperparamètres principaux	Menu XLSTAT	Remarques
Régression logistique	Non	-	+++	Non	Aucun	Modélisation des données	Bonne intelligibilité explicative (coefficients log-odds et p-values)
Régression pénalisée (Ridge, Lasso, Elastic Net)	Oui	-	++	Non	lambda, alpha	XLSTAT-R, glmnet	Sélectionner les familles binomiale ou multinomiale
Analyse Discriminante linéaire	Non	-	+	Non	Aucun	Analyse des données / Analyse Factorielle Discriminante ; Onglet options : activer égalité des matrices de covariance
Analyse Discriminante quadratique	Non	+	+	Non	Aucun	Analyse des données / Analyse Factorielle Discriminante ; Onglet options : désactiver égalité des matrices de covariance
Analyse Discriminante par les Moindres Carrés Partiels (PLS-DA)	Oui	-	+	Non	Nombre de composantes	Modélisation des données	Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie)
Modèle Additif Généralisé (GAM)	Non	++	+	Non	Méthode, ajouter une pénalité supplémentaire	XLSTAT-R, gam
Classifieur Bayésien Naïf	Oui	-	-	Non	Paramètre de lissage	Machine Learning	Calculs rapides sur jeux de données volumineux
Machines à Vecteurs de Support (SVM)	Oui	++ (noyau RBF recommandé pour les situations non-linéaires)	-	Non	C, noyau et hyperparamètres propres aux noyaux	Machine Learning	Calculs intensifs sur jeux de données volumineux
K Plus Proches Voisins (KNN)	Oui	++	-	Non	Nombre de voisins	Machine Learning
Arbres de Classification (C&RT)	Oui	++	++	Oui	CP	Machine Learning	Ramifications binaires à chaque noeud
Arbres de Classification (CHAID)	Oui	++	++	Oui	CP	Machine Learning	Ramifications multiples à chaque noeud
Forêts Aléatoires de Classification (Random Forests)	Oui	++	+	Oui	CP, mtry	Machine Learning	Meilleure performance prédictive que celle des arbres de classification
Réseaux de Neurones Artificiels (ANN)	Oui	++	-	Oui	Architecture du réseau, fonction d'erreur, fonctions d'activation	XLSTAT-R, neuralnet	Nécessite expertise avancée

Algorithmes de régression

Algorithme	Fonctionne avec plus de variables que d'observations ?	S'adapte à des situations non-linéaires ?	Intelligibilité explicative	Apprend les interactions pertinentes parmi les prédicteurs ?	Hyperparamètres principaux	Menu XLSTAT	Remarques
Régression linéaire	Non	-	+++	Non	Aucun	Modélisation des données	Bonne intelligibilité explicative (coefficients de pentes et p-values)
Régression pénalisée (Ridge, Lasso, Elastic Net)	Oui	-	++	Non	Lambda, alpha	XLSTAT-R, glmnet	Sélectionner famille Gaussienne
Régression quantile	Oui	-	+	Non	Aucun	Modélisation des données
Modèle Additif Généralisé (GAM)	Non	++	+	Non	Méthode, ajouter une pénalité supplémentaire	XLSTAT-R, gam
Régression PLS (Moindres Carrés Partiels)	Oui	-	+	Non	Nombre de composantes	Modélisation des données	Typiquement utilisée lorsqu'il y a peu d'observations et beaucoup de variables (chémométrie)
Régression sur les Composantes Principales (PCR)	Oui	-	+	Non	Standardisation des variables	Modélisation des données / Régression PLS
K Plus Proches Voisins (KNN)	Oui	++	-	Non	Nombre de voisins	Machine Learning
Arbres de Régression (C&RT)	Oui	++	++	Oui	CP	Machine Learning	Ramifications binaires à chaque noeud
Arbres de Régression (CHAID)	Oui	++	++	Oui	CP	Machine Learning	Ramifications multiples à chaque noeud
Forêts Aléatoires de Régression (Random Forests)	Oui	++	+	Oui	CP, mtry	Machine Learning	Meilleure performance prédictive que celle des arbres de régression
Réseaux de Neurones Artificiels (ANN)	Oui	++	-	Oui	Architecture du réseau, fonction d'erreur, fonctions d'activation	XLSTAT-R, neuralnet	Nécessite expertise avancée

Cet article vous a t-il été utile ?

Comparaison d’algorithmes de Machine Learning supervisé

Les algorithmes sont comparés selon différents critères

Algorithmes de classification

Algorithmes de régression

Articles similaires