Les fondamentaux du Machine learning avec R
Prochaine session
20, 21, 22 novembre 2024
Prochaines sessions et informations pratiques
- Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
- Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
- Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.
- Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
- Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
- Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances intermédiaires du logiciel R (formation R intermédiaire).
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances intermédiaires du logiciel R (formation R intermédiaire).
Data analysts, data scientists
Data analysts, data scientists
La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.
Bases du machine learning
- Apprentissage supervisé vs non supervisé
- Régression vs classification supervisée
- Coût (perte) et risque (erreur de généralisation)
- Biais-variance d’un prédicteur
- Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)
Rappel sur le modèle linéaire
- Régression : régression linéaire
- Choix des variables
- Applications sur cas pratiques
Codage et interprétation des variables qualitatives
Régression régularisée
- Ridge
- LASSO
- Elasticnet
- Comparaison des méthodes par validation croisée
- Applications sur cas pratiques
Classification supervisée
- Régression logistique
- Critères d’évaluation : précision, recall…
- Applications sur cas pratiques
- Classification supervisée pénalisé
- Comparaison de méthodes par validation croisée
Agrégation d’arbres
- Arbres de régression et de décision (CART)
- Introduction aux random forests
- Applications sur cas pratiques
La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.
Bases du machine learning
- Apprentissage supervisé vs non supervisé
- Régression vs classification supervisée
- Coût (perte) et risque (erreur de généralisation)
- Biais-variance d’un prédicteur
- Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)
Rappel sur le modèle linéaire
- Régression : régression linéaire
- Choix des variables
- Applications sur cas pratiques
Codage et interprétation des variables qualitatives
Régression régularisée
- Ridge
- LASSO
- Elasticnet
- Comparaison des méthodes par validation croisée
- Applications sur cas pratiques
Classification supervisée
- Régression logistique
- Critères d’évaluation : précision, recall…
- Applications sur cas pratiques
- Classification supervisée pénalisé
- Comparaison de méthodes par validation croisée
Agrégation d’arbres
- Arbres de régression et de décision (CART)
- Introduction aux random forests
- Applications sur cas pratiques
Les différents packages R pour le machine learning
R dispose d’une vaste bibliothèque de packages dédiés au machine learning. Voici quelques-uns des packages les plus populaires et largement utilisés pour le machine learning en R (liste non exhaustive !) :
caret
: Le package “caret” (Classification And REgression Training) est une boîte à outils complète pour l’apprentissage automatique. Il fournit une interface unifiée pour entraîner et évaluer des modèles de classification et de régression, en utilisant une grande variété d’algorithmes. Il offre également des fonctionnalités pour la sélection de variables, l’optimisation des hyperparamètres et la comparaison des modèles.randomForest
: Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, une méthode d’apprentissage ensembliste très populaire. Il permet la construction de modèles de classification et de régression basés sur des arbres de décision aléatoires. Il offre une grande flexibilité dans la manipulation des données et fournit des fonctionnalités pour l’importance des variables et la prédiction.e1071
: Le package “e1071” fournit des implémentations pour plusieurs algorithmes d’apprentissage automatique, notamment les machines à vecteurs de support (SVM), les réseaux de neurones, les k plus proches voisins (k-NN), etc. Il propose également des fonctionnalités pour le prétraitement des données, la sélection des caractéristiques et la validation croisée.glmnet
: Le package “glmnet” met en œuvre des modèles de régression linéaire avec pénalisation l1 (lasso) et l2 (ridge). Ces méthodes permettent la sélection automatique des variables et la régularisation pour traiter les problèmes de surajustement.xgboost
: Le package “xgboost” est une implémentation de l’algorithme de gradient boosting extrêmement performante. Il offre une grande flexibilité dans la création de modèles de classification et de régression avec des arbres de décision boostés.keras
: Le package “keras” est une interface R pour le framework d’apprentissage en profondeur Keras. Il permet de construire et de former des réseaux de neurones profonds pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond.mlr
: Le package “mlr” (Machine Learning in R) fournit des outils pour la construction, l’évaluation et l’optimisation de modèles d’apprentissage automatique. Il offre une interface unifiée pour de nombreux algorithmes et permet la réalisation de workflows de machine learning complets.ranger
: Le package “ranger” implémente des forêts aléatoires extrêmement rapides et performantes. Il est conçu pour traiter efficacement les ensembles de données volumineux et offre des fonctionnalités pour l’importance des variables, la prédiction et le parallélisme.
Les différents packages R pour le machine learning
R dispose d’une vaste bibliothèque de packages dédiés au machine learning. Voici quelques-uns des packages les plus populaires et largement utilisés pour le machine learning en R (liste non exhaustive !) :
caret
: Le package “caret” (Classification And REgression Training) est une boîte à outils complète pour l’apprentissage automatique. Il fournit une interface unifiée pour entraîner et évaluer des modèles de classification et de régression, en utilisant une grande variété d’algorithmes. Il offre également des fonctionnalités pour la sélection de variables, l’optimisation des hyperparamètres et la comparaison des modèles.randomForest
: Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, une méthode d’apprentissage ensembliste très populaire. Il permet la construction de modèles de classification et de régression basés sur des arbres de décision aléatoires. Il offre une grande flexibilité dans la manipulation des données et fournit des fonctionnalités pour l’importance des variables et la prédiction.e1071
: Le package “e1071” fournit des implémentations pour plusieurs algorithmes d’apprentissage automatique, notamment les machines à vecteurs de support (SVM), les réseaux de neurones, les k plus proches voisins (k-NN), etc. Il propose également des fonctionnalités pour le prétraitement des données, la sélection des caractéristiques et la validation croisée.glmnet
: Le package “glmnet” met en œuvre des modèles de régression linéaire avec pénalisation l1 (lasso) et l2 (ridge). Ces méthodes permettent la sélection automatique des variables et la régularisation pour traiter les problèmes de surajustement.xgboost
: Le package “xgboost” est une implémentation de l’algorithme de gradient boosting extrêmement performante. Il offre une grande flexibilité dans la création de modèles de classification et de régression avec des arbres de décision boostés.keras
: Le package “keras” est une interface R pour le framework d’apprentissage en profondeur Keras. Il permet de construire et de former des réseaux de neurones profonds pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond.mlr
: Le package “mlr” (Machine Learning in R) fournit des outils pour la construction, l’évaluation et l’optimisation de modèles d’apprentissage automatique. Il offre une interface unifiée pour de nombreux algorithmes et permet la réalisation de workflows de machine learning complets.ranger
: Le package “ranger” implémente des forêts aléatoires extrêmement rapides et performantes. Il est conçu pour traiter efficacement les ensembles de données volumineux et offre des fonctionnalités pour l’importance des variables, la prédiction et le parallélisme.