Machine learning : bagging, gradient boosting, SVM avec R
Prochaine session
17 et 18 octobre 2024
- Connaître et savoir mettre en œuvre les méthodes d’agrégation en régression et classification supervisée : bagging (random forest) et gradient boosting
- Connaître et savoir mettre en œuvre la méthode SVM en classification supervisée
- Savoir gérer empiriquement le risque de sur-apprentissage
- Connaître et savoir mettre en œuvre les méthodes d’agrégation en régression et classification supervisée : bagging (random forest) et gradient boosting
- Connaître et savoir mettre en œuvre la méthode SVM en classification supervisée
- Savoir gérer empiriquement le risque de sur-apprentissage
- Connaissances de base en machine learning (formation Les fondamentaux du Machine learning avec R).
- Connaissances intermédiaires du logiciel R (formation R intermédiaire).
- Connaissances de base en machine learning (formation Les fondamentaux du Machine learning avec R).
- Connaissances intermédiaires du logiciel R (formation R intermédiaire).
Data analysts, data scientists
Data analysts, data scientists
Rappels sur les bases du machine learning
Méthodes d’agrégation – bagging
- Rappels sur les arbres de régression et de décision (CART)
- Bagging
- Random forest
- Importance des variables
- Applications sur cas pratiques
Méthodes d’agrégation – gradient boosting
- Algorithme AdaBoost
- Principe du gradient boosting
- Quelques fonctions de coût classiques
- Applications sur cas pratiques
SVM
- Cas linéairement séparable
- Ajout de variables ressort (slack variables)
- Astuce du noyau
- Applications sur cas pratiques
Introduction aux réseaux de neurones
- Neurone formel
- Perceptron multicouche (MLP)
- Fonctions d’activation
Rappels sur les bases du machine learning
Méthodes d’agrégation – bagging
- Rappels sur les arbres de régression et de décision (CART)
- Bagging
- Random forest
- Importance des variables
- Applications sur cas pratiques
Méthodes d’agrégation – gradient boosting
- Algorithme AdaBoost
- Principe du gradient boosting
- Quelques fonctions de coût classiques
- Applications sur cas pratiques
SVM
- Cas linéairement séparable
- Ajout de variables ressort (slack variables)
- Astuce du noyau
- Applications sur cas pratiques
Introduction aux réseaux de neurones
- Neurone formel
- Perceptron multicouche (MLP)
- Fonctions d’activation
Les différents packages R pour le bagging, le gradient boosting et le SVM
En R, voici quelques-uns des packages populaires pour réaliser du bagging, du gradient boosting et du SVM :
Bagging
randomForest
: Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, qui est une méthode de bagging utilisant des arbres de décision. Il est utilisé pour la classification et la régression.adabag
: Le package “adabag” propose des algorithmes de bagging adaptatif pour la classification. Il fournit des variantes de bagging comme Bagging with Adaptive Boosting (AdaBag), Bagging with Bayesian Adaptive Boosting (BayesBag), etc.
Gradient Boosting
xgboost
: Le package “xgboost” implémente l’algorithme de gradient boosting extrêmement performant, connu pour sa rapidité et sa précision. Il est utilisé pour la classification et la régression.gbm
: Le package “gbm” fournit une implémentation de l’algorithme de gradient boosting généralisé pour la régression et la classification. Il permet de créer des modèles basés sur des arbres de décision.
SVM (Support Vector Machines)
e1071
: Le package “e1071” propose une implémentation des machines à vecteurs de support (SVM) pour la classification et la régression. Il fournit des fonctionnalités avancées pour le réglage des hyperparamètres et la personnalisation des modèles SVM.LiblineaR
: Le package “LiblineaR” fournit une interface R pour la bibliothèque Liblinear, qui implémente des SVM linéaires pour la classification et la régression.
Certains packages tels que randomForest
et xgboost
peuvent également être utilisés pour la classification et la régression, et pas seulement pour le bagging ou le gradient boosting.
Les différents packages R pour le bagging, le gradient boosting et le SVM
En R, voici quelques-uns des packages populaires pour réaliser du bagging, du gradient boosting et du SVM :
Bagging
randomForest
: Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, qui est une méthode de bagging utilisant des arbres de décision. Il est utilisé pour la classification et la régression.adabag
: Le package “adabag” propose des algorithmes de bagging adaptatif pour la classification. Il fournit des variantes de bagging comme Bagging with Adaptive Boosting (AdaBag), Bagging with Bayesian Adaptive Boosting (BayesBag), etc.
Gradient Boosting
xgboost
: Le package “xgboost” implémente l’algorithme de gradient boosting extrêmement performant, connu pour sa rapidité et sa précision. Il est utilisé pour la classification et la régression.gbm
: Le package “gbm” fournit une implémentation de l’algorithme de gradient boosting généralisé pour la régression et la classification. Il permet de créer des modèles basés sur des arbres de décision.
SVM (Support Vector Machines)
e1071
: Le package “e1071” propose une implémentation des machines à vecteurs de support (SVM) pour la classification et la régression. Il fournit des fonctionnalités avancées pour le réglage des hyperparamètres et la personnalisation des modèles SVM.LiblineaR
: Le package “LiblineaR” fournit une interface R pour la bibliothèque Liblinear, qui implémente des SVM linéaires pour la classification et la régression.
Certains packages tels que randomForest
et xgboost
peuvent également être utilisés pour la classification et la régression, et pas seulement pour le bagging ou le gradient boosting.