Classification supervisée : analyse discriminante, régression logistique et arbres avec R
- Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
- Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
- Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances de base du logiciel R (formation R initiation).
Data analysts, chargés d’études statistiques, data scientists
La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.
Présentation du problème de la classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
- Applications sur cas pratiques
Régression logistique
- Présentation du modèle
- Estimation des paramètres et tests
- Sélection de modèle
- Introduction aux méthodes pénalisées (ridge et lasso)
- Applications sur cas pratiques
Arbres
- Méthodologie CART (arbres de décision)
- Agrégation (bagging) d’arbres : forêts aléatoires
- Applications sur cas pratiques
Moyens pédagogiques
- Exposé théorique de concepts
- Applications pratiques sur ordinateur
- Échanges sur les pratiques et expériences des participants
- Temps de questions / réponses
- Exercices, quiz, forum etc.
Méthodes pédagogiques