Les fondamentaux du Machine learning avec R

 
  2 jours       1530       Avancé    
Objectifs de la formation
  • Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
  • Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
  • Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.

Prérequis

Public visé

Data analysts, data scientists


Programme détaillé

La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.

Bases du machine learning

  • Apprentissage supervisé vs non supervisé
  • Régression vs classification supervisée
  • Coût (perte) et risque (erreur de généralisation)
  • Biais-variance d’un prédicteur
  • Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)

Modèle linéaire généralisé - GLM

  • Régression : régression linéaire
  • Classification supervisée : régression logistique
  • Applications sur cas pratiques

Régression régularisée

  • Ridge
  • LASSO
  • Elasticnet
  • Applications sur cas pratiques

Méthodes d’arbres

  • Arbres de régression et de décision (CART)
  • Introduction aux random forests
  • Applications sur cas pratiques

Les différents packages R pour le machine learning

 

R dispose d’une vaste bibliothèque de packages dédiés au machine learning. Voici quelques-uns des packages les plus populaires et largement utilisés pour le machine learning en R (liste non exhaustive !) :

  • caret : Le package “caret” (Classification And REgression Training) est une boîte à outils complète pour l’apprentissage automatique. Il fournit une interface unifiée pour entraîner et évaluer des modèles de classification et de régression, en utilisant une grande variété d’algorithmes. Il offre également des fonctionnalités pour la sélection de variables, l’optimisation des hyperparamètres et la comparaison des modèles.

  • randomForest : Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, une méthode d’apprentissage ensembliste très populaire. Il permet la construction de modèles de classification et de régression basés sur des arbres de décision aléatoires. Il offre une grande flexibilité dans la manipulation des données et fournit des fonctionnalités pour l’importance des variables et la prédiction.

  • e1071 : Le package “e1071” fournit des implémentations pour plusieurs algorithmes d’apprentissage automatique, notamment les machines à vecteurs de support (SVM), les réseaux de neurones, les k plus proches voisins (k-NN), etc. Il propose également des fonctionnalités pour le prétraitement des données, la sélection des caractéristiques et la validation croisée.

  • glmnet : Le package “glmnet” met en œuvre des modèles de régression linéaire avec pénalisation l1 (lasso) et l2 (ridge). Ces méthodes permettent la sélection automatique des variables et la régularisation pour traiter les problèmes de surajustement.

  • xgboost : Le package “xgboost” est une implémentation de l’algorithme de gradient boosting extrêmement performante. Il offre une grande flexibilité dans la création de modèles de classification et de régression avec des arbres de décision boostés.

  • keras : Le package “keras” est une interface R pour le framework d’apprentissage en profondeur Keras. Il permet de construire et de former des réseaux de neurones profonds pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond.

  • mlr : Le package “mlr” (Machine Learning in R) fournit des outils pour la construction, l’évaluation et l’optimisation de modèles d’apprentissage automatique. Il offre une interface unifiée pour de nombreux algorithmes et permet la réalisation de workflows de machine learning complets.

  • ranger : Le package “ranger” implémente des forêts aléatoires extrêmement rapides et performantes. Il est conçu pour traiter efficacement les ensembles de données volumineux et offre des fonctionnalités pour l’importance des variables, la prédiction et le parallélisme.