Machine Learning (initiation)

 
  Toutes les formations  Data science
  2 jours       1420       Avancé    
Objectifs pédagogiques

Comprendre et maîtriser les méthodes de régression à mettre en œuvre en fonction du type de la variable à expliquer et du nombre de variable.

Connaître les méthodes de base du machine learning.

Apprendre à mettre en œuvre les principaux algorithmes sur des données réelles, à analyser leurs résultats, et comparer leurs performances.


Prérequis

Pratique régulière de R et maîtrise de la régression linéaire (formation Régression linéaire et analyse de la variance)


Contenu

Dans ce module, nous nous intéressons à la modélisation d’une variable d’intérêt par plusieurs autres variables. Cette variable d’intérêt peut être quantitative (régression) ou qualitative (discrimination ou classification supervisée). Nous commencerons par dissocier l’approche statistique de l’approche machine learning. Pour ce faire, nous introduirons la notion de risque en régression et en classification supervisée ainsi que diverses techniques permettant d’évaluer ce risque (validation croisée, approche out of bag).

Rappel des méthodes de régression classiques

  • Régression par moindres carrés : estimation, choix de variables, analyse des résidus
  • Régression logistique : estimation, choix de variables, analyse des résidus

Régression sous contrainte

  • Moindres carrés pénalisés : ridge, lasso et eslaticnet
  • Régularisation de la vraisemblance

Les forêts aléatoires : introduction à l’agrégation

  • Arbre de régression
  • Bagging et forêts aléatoires : réduction de variance
  • Mesures d’importance des variables

Méthodes et moyens pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.