Classification supervisée : analyse discriminante, régression logistique et arbres
Connaître l’ensemble des méthodes de référence permettant de répondre au problème de discrimination (également appelé classification supervisé). Les méthodes d’analyse discriminantes, de régression logistique et les arbres seront notamment présentées.
Etre capable de définir et de calculer des critères permettant de comparer les performances de ces approches. Mettre en œuvre les différentes méthodes sur le logiciel R.
Bonnes connaissances de base en calcul des probabilités, en statistique (estimation, tests, régression), en analyse des données (analyse en composantes principales et analyse des correspondances) ainsi qu’en logiciel R.
Le problème de la classification supervisée consiste à expliquer une variable qualitative par des variables qualitatives et/ou quantitatives. De nombreuses applications appartiennent à cette famille de problème. Les modèles de référence seront étudiés au cours de cette formation. On présentera notamment les méthodes d’analyse discriminante (linéaire et quadratique), la régression logistique et les arbres (ou segmentation). Une introduction à certaines techniques d’apprentissage (ou machine learning) telles les régressions pénalisées et les forêts aléatoires sera également présentée. Toutes les méthodes seront mises en œuvre sur le logiciel R, des applications sur données réelles et simulées seront également proposées.
Présentation du problème de cela classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
La régression logistique
- Présentation du modèle
- Estimation des paramètres - Tests
- Sélection de variables
- Introduction aux méthodes pénalisées (ridge-lasso)
Arbres
- La notion de dichotomie
- Méthodologie CART
- Introduction aux forêts aléatoires
Conclusion : comparaison de différentes approches de discrimination
- Avantages et inconvénients des techniques d’analyse discriminante, de discrimination logistique, et de segmentation
- Estimation de critères de performance (probabilité d’erreur, courbes ROC, …)
Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.