Classification supervisée : analyse discriminante, régression logistique et arbres avec R

 
  3 jours       1620       Avancé    
Objectifs de la formation
  • Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
  • Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
  • Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.

Prérequis

Public visé

Data analysts, chargés d’études statistiques, data scientists


Contenu

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée

  • Cadre statistique
  • Critères de performance
  • Approche scoring

Analyse discriminante linéaire

  • Approche descriptive
  • Approche prédictive
  • Analyse discriminante quadratique
  • Applications sur cas pratiques

Régression logistique

  • Présentation du modèle
  • Estimation des paramètres et tests
  • Sélection de modèle
  • Introduction aux méthodes pénalisées (ridge et lasso)
  • Applications sur cas pratiques

Arbres

  • Méthodologie CART (arbres de décision)
  • Agrégation (bagging) d’arbres : forêts aléatoires
  • Applications sur cas pratiques
Approche pédagogique

  Moyens pédagogiques

  • Exposé théorique de concepts
  • Applications pratiques sur ordinateur
  • Échanges sur les pratiques et expériences des participants
  • Temps de questions / réponses
  • Exercices, quiz, forum etc.

  Méthodes pédagogiques