Analyse discriminante et segmentation

 
  Toutes les formations  Méthodes statistiques
  3 jours       1530       Avancé    
Objectifs

Connaître l’ensemble des méthodes de référence permettant de répondre au problème de discrimination (également appelé classification supervisé). Les méthodes d’analyse discriminantes, de régression logistique et les arbres seront notamment présentées.

Etre capable de définir et de calculer des critères permettant de comparer les performances de ces approches. Mettre en œuvre les différentes méthodes sur le logiciel R.


Prérequis

Bonnes connaissances de base en calcul des probabilités, en statistique (estimation, tests, régression), en analyse des données (analyse en composantes principales et analyse des correspondances) ainsi qu’en logiciel R.


Contenu

Le problème de la classification supervisée consiste à expliquer une variable qualitative par des variables qualitatives et/ou quantitatives. De nombreuses applications appartiennent à cette famille de problème. Les modèles de référence seront étudiés au cours de cette formation. On présentera notamment les méthodes d’analyse discriminante (linéaire et quadratique), la régression logistique et les arbres (ou segmentation). Une introduction à certaines techniques d’apprentissage (ou machine learning) telles les régressions pénalisées et les forêts aléatoires sera également présentée. Toutes les méthodes seront mises en œuvre sur le logiciel R, des applications sur données réelles et simulées seront également proposées.

Présentation du problème de cela classification supervisée

  • Cadre statistique
  • Critères de performance
  • Approche scoring

Analyse discriminante linéaire

  • Approche descriptive
  • Approche prédictive
  • Analyse discriminante quadratique

La régression logistique

  • Présentation du modèle
  • Estimation des paramètres - Tests
  • Sélection de variables
  • Introduction aux méthodes pénalisées (ridge-lasso)

Arbres

  • La notion de dichotomie
  • Méthodologie CART
  • Introduction aux forêts aléatoires

Conclusion : comparaison de différentes approches de discrimination

  • Avantages et inconvénients des techniques d’analyse discriminante, de discrimination logistique, et de segmentation
  • Estimation de critères de performance (probabilité d’erreur, courbes ROC, …)