Classification supervisée : analyse discriminante, régression logistique et arbres avec R

 
  3 jours       1620       Avancé    
  Prochaine session
9, 10, 11 octobre 2024
Objectifs de la formation
  • Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
  • Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
  • Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.

Prérequis

Public visé

Data analysts, chargés d’études statistiques, data scientists


Programme détaillé

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée

  • Cadre statistique
  • Critères de performance
  • Approche scoring

Analyse discriminante linéaire

  • Approche descriptive
  • Approche prédictive
  • Analyse discriminante quadratique
  • Applications sur cas pratiques

Régression logistique

  • Présentation du modèle
  • Estimation des paramètres et tests
  • Sélection de modèle
  • Introduction aux méthodes pénalisées (ridge et lasso)
  • Applications sur cas pratiques

Arbres

  • Méthodologie CART (arbres de décision)
  • Agrégation (bagging) d’arbres : forêts aléatoires
  • Applications sur cas pratiques

Teaser : principaux packages R utilisés en classification supervisée

 

Voici quelques-uns des principaux packages R utilisés pour réaliser de la classification supervisée (analyse discrimante, régressions logistiques arbres…) :

  • MASS : Le package MASS propose des méthodes pour l’analyse discriminante linéaire et quadratique. Il comprend les fonctions lda() et qda() pour effectuer respectivement l’analyse discriminante linéaire et quadratique.

  • nnet : Le package nnet permet de construire des réseaux de neurones artificiels pour la classification supervisée. La fonction nnet() permet de créer un modèle de réseau de neurones en spécifiant le nombre de couches et les fonctions d’activation.

  • glmnet : Le package glmnet est utilisé pour réaliser des régressions logistiques pénalisées et des régressions élastiques net. Il fournit une implémentation efficace des modèles de régression avec régularisation.

  • randomForest : Le package randomForest est utilisé pour construire des modèles de forêts aléatoires, une technique ensembliste basée sur les arbres de décision. Il offre une grande flexibilité et une grande précision pour la classification.

  • rpart : Le package rpart permet de construire des arbres de décision pour la classification supervisée. La fonction rpart() crée un arbre de décision en utilisant l’algorithme de partitionnement récursif.

  • caret : Le package caret (Classification And REgression Training) fournit une interface unifiée pour l’entraînement et l’évaluation de nombreux modèles de classification supervisée. Il offre une grande variété de méthodes et d’outils pour la sélection de modèles, la validation croisée et la préparation des données.

  • e1071 : Le package e1071 propose plusieurs méthodes pour la classification supervisée, y compris les machines à vecteurs de support (SVM) et les classificateurs naïfs de Bayes. Il offre également des fonctionnalités pour le prétraitement des données et la sélection de variables.

Ces packages sont souvent utilisés en combinaison avec d’autres packages R pour réaliser des tâches spécifiques d’analyse des données. Votre formateur vous aidera à acquérir de la pratique sur l’ensemble de ces outils.