Classification supervisée : analyse discriminante et régression logistique avec SAS NEW

 
  2 jours       1080       Avancé    
Formation langage SAS
Objectifs de la formation
  • Connaître l’ensemble des méthodes de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
  • Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
  • Savoir mettre en œuvre les principales méthodes de classification supervisée.

Prérequis

Public visé

Data analysts, chargés d’études statistiques, data scientists


Programme détaillé

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée

  • Cadre statistique
  • Critères de performance
  • Approche scoring

Analyse discriminante linéaire

  • Approche descriptive
  • Approche prédictive
  • Analyse discriminante quadratique
  • Applications sur cas pratiques

Régression logistique

  • Présentation du modèle
  • Estimation des paramètres et tests
  • Sélection de modèle
  • Introduction aux méthodes pénalisées (ridge et lasso)
  • Applications sur cas pratiques

Teaser : principales procédures SAS utilisées en classification supervisée

 

SAS propose plusieurs procédures pour réaliser de la classification supervisée. Voici les principales :


PROC LOGISTIC : Cette procédure est utilisée pour réaliser des analyses de régression logistique. Elle permet de modéliser et d’estimer la relation entre une variable binaire (variable dépendante) et un ensemble de variables explicatives (variables indépendantes). Elle fournit des statistiques d’ajustement du modèle, des estimations des coefficients, des tests d’hypothèses et des prédictions.

Exemple d’utilisation de PROC LOGISTIC :

proc logistic data=dataset;
  class target_var;
  model target_var = independent_vars;
  output out=predictions p=probabilities;
run;


PROC DISCRIM : Cette procédure est utilisée pour réaliser des analyses discriminantes. Elle permet de créer des modèles discriminants pour classer les observations dans des groupes prédéfinis en utilisant un ensemble de variables prédictives continues ou catégorielles. Elle fournit des statistiques de classification, des matrices de confusion, des fonctions discriminantes et des graphiques.

Exemple d’utilisation de PROC DISCRIM :

proc discrim data=dataset method=linear;
  class target_var;
  var independent_vars;
  ods select PriorProbabilities ConfusionMatrix FitStatistics;
run;


PROC HPLOGISTIC : Cette procédure est une version haute performance de PROC LOGISTIC, qui est optimisée pour le traitement de grands ensembles de données. Elle offre des fonctionnalités similaires à PROC LOGISTIC, mais avec des performances améliorées pour des analyses de régression logistique.

Exemple d’utilisation de PROC HPLOGISTIC :

proc hplogistic data=dataset;
  class target_var;
  model target_var = independent_vars;
  ods output FitStatistics=fitstats;
run;


PROC HPGENSELECT : Cette procédure est utilisée pour effectuer la sélection de variables dans le cadre de la classification supervisée. Elle permet d’identifier les variables les plus prédictives pour le modèle de classification à l’aide de méthodes de sélection avancées telles que la régression logistique pénalisée et les méthodes de recherche de variables.

Exemple d’utilisation de PROC HPGENSELECT :

proc hpgenselect data=dataset;
  class target_var;
  model target_var = / selection=stepwise(choose=validate);
  ods output SelectSummary=summary;
run;


Ces procédures SAS offrent de nombreuses options supplémentaires pour le contrôle du modèle, la validation croisée, le traitement des données manquantes, etc. La documentation SAS est là pour vous aider !