Modélisation et initiation au machine learning

 
  Toutes les formations  Big Data
  3 jours       2000       Avancé    
  Prochaine session
10, 11, 12 avril 2017
Objectifs

Comprendre et maîtriser les méthodes de régression à mettre en oeuvre en fonction du type de la variable à expliquer et du nombre de variable.

Connaitre les méthodes de base du machine learning.


Prérequis

Pratique régulière de R et maîtrise de la régression linéaire (formation Régression linéaire et analyse de la variance)


Contenu

Dans ce module, nous nous intéressons à la modélisation d’une variable d’intérêt par des variables potentielles explicatives.

Rappel des méthodes de régression (moindres carrés, régression logistique) ainsi que les analyses classiques : analyse des résidus, choix de variables…

La variable à expliquer Y est une variable quantitative continue et les variables explicatives sont également continues. Cette situation se retrouve dans de nombreux domaines. Il arrive souvent que des variables explicatives soient qualitatives. On traitera alors leur transformation en codage disjonctif et les problèmes liés à ce codage.

Le cas où la variable à expliquer Y est une variable qualitative admettant 2 modalités sera également étudié. Cette situation se rencontre dans différents champs d’application. La régression logistique permet de tenir compte de la nature discrète de la variable dépendante qui peut prendre deux valeurs (variables binaires dépendantes). Celle-ci peut se généraliser au cas où la variable à expliquer prend plus de deux modalités et les méthodes mises en oeuvre ainsi que l’interprétation des résultats doivent tenir compte de leur nature ordonnée ou pas.

Modélisation sous contrainte

Il est souvent intéressant d’utiliser beaucoup de variables (celles existantes) ou d’en créer de nouvelles (transformation des variables existantes). Par conséquent pour gérer ces variables nombreuses, il est en général utile d’utiliser des méthodes de régression souscontrainte comme par exemple les méthodes Ridge ou lasso ou elasticnet.

Problématiques liées au sur apprentissage et méthodes de machine learning

Présentation des méthodes d’agrégation : boosting, bagging, forêts aléatoires.