Les fondamentaux du Machine learning avec R

 
  3 jours       2110       Avancé    
  Prochaine session
20, 21, 22 novembre 2024

  Prochaines sessions et informations pratiques

Formation langage R
Objectifs de la formation
  • Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
  • Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
  • Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.
Les fondamentaux du Machine learning avec R
Prérequis

Public visé

Data analysts, data scientists


Programme détaillé

La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.

Bases du machine learning

  • Apprentissage supervisé vs non supervisé
  • Régression vs classification supervisée
  • Coût (perte) et risque (erreur de généralisation)
  • Biais-variance d’un prédicteur
  • Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)

Rappel sur le modèle linéaire

  • Régression : régression linéaire
  • Choix des variables
  • Applications sur cas pratiques

Codage et interprétation des variables qualitatives

Régression régularisée

  • Ridge
  • LASSO
  • Elasticnet
  • Comparaison des méthodes par validation croisée
  • Applications sur cas pratiques

Classification supervisée

  • Régression logistique
  • Critères d’évaluation : précision, recall…
  • Applications sur cas pratiques
  • Classification supervisée pénalisé
  • Comparaison de méthodes par validation croisée

Agrégation d’arbres

  • Arbres de régression et de décision (CART)
  • Introduction aux random forests
  • Applications sur cas pratiques

Les différents packages R pour le machine learning

 

R dispose d’une vaste bibliothèque de packages dédiés au machine learning. Voici quelques-uns des packages les plus populaires et largement utilisés pour le machine learning en R (liste non exhaustive !) :

  • caret : Le package “caret” (Classification And REgression Training) est une boîte à outils complète pour l’apprentissage automatique. Il fournit une interface unifiée pour entraîner et évaluer des modèles de classification et de régression, en utilisant une grande variété d’algorithmes. Il offre également des fonctionnalités pour la sélection de variables, l’optimisation des hyperparamètres et la comparaison des modèles.

  • randomForest : Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, une méthode d’apprentissage ensembliste très populaire. Il permet la construction de modèles de classification et de régression basés sur des arbres de décision aléatoires. Il offre une grande flexibilité dans la manipulation des données et fournit des fonctionnalités pour l’importance des variables et la prédiction.

  • e1071 : Le package “e1071” fournit des implémentations pour plusieurs algorithmes d’apprentissage automatique, notamment les machines à vecteurs de support (SVM), les réseaux de neurones, les k plus proches voisins (k-NN), etc. Il propose également des fonctionnalités pour le prétraitement des données, la sélection des caractéristiques et la validation croisée.

  • glmnet : Le package “glmnet” met en œuvre des modèles de régression linéaire avec pénalisation l1 (lasso) et l2 (ridge). Ces méthodes permettent la sélection automatique des variables et la régularisation pour traiter les problèmes de surajustement.

  • xgboost : Le package “xgboost” est une implémentation de l’algorithme de gradient boosting extrêmement performante. Il offre une grande flexibilité dans la création de modèles de classification et de régression avec des arbres de décision boostés.

  • keras : Le package “keras” est une interface R pour le framework d’apprentissage en profondeur Keras. Il permet de construire et de former des réseaux de neurones profonds pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond.

  • mlr : Le package “mlr” (Machine Learning in R) fournit des outils pour la construction, l’évaluation et l’optimisation de modèles d’apprentissage automatique. Il offre une interface unifiée pour de nombreux algorithmes et permet la réalisation de workflows de machine learning complets.

  • ranger : Le package “ranger” implémente des forêts aléatoires extrêmement rapides et performantes. Il est conçu pour traiter efficacement les ensembles de données volumineux et offre des fonctionnalités pour l’importance des variables, la prédiction et le parallélisme.