Techniques de scoring

 
  3 jours       2110       Avancé    
Objectifs de la formation

Savoir construire un score pour la prédiction d’un phénomène binaire, depuis la phase d’échantillonnage jusqu’aux restitutions finales.


Prérequis

Connaissances de base en calcul des probabilités et en statistique (test, régression linéaire).


Public visé

Data Scientists, chargés d’études statistiques, managers d’équipes utilisant des scores (risque bancaire, assurance, marketing, etc.)


Contenu

La formation propose un panorama des méthodes statistiques utilisées pour la production de scores – méthodes classiques de la statistique (analyse discriminante, régression logistique) et méthodes plus “informatiques” (arbres de décision, réseaux de neurones). De nombreux exemples issus de différents secteurs d’activité illustreront ces méthodes. Le but est de présenter les techniques et les pièges de l’étude de données volumineuses, avec un objectif d’aide à la décision. Cette formation ne recourt que peu au formalisme mathématique. Les formations Classification supervisée : analyse discriminante, régression logistique et arbres et Méthodes de régression pour données qualitatives permettront aux statisticiens d’approfondir la théorie et la mise en œuvre des méthodes prédictives classiques. La formation Machine Learning permettra d’approfondir la théorie et la mise en œuvre des méthodes prédictives avancées.

Présentation des techniques de scoring

  • Principales applications
  • Panorama des techniques prédictives et descriptives employées
  • Cycle d’un projet de scoring

Analyse descriptive

  • Graphiques utiles
  • Caractérisation par des tests statistiques
  • Sélection de variables par des tests
  • Gestion des données manquantes

Arbres de décision

  • Construction d’un arbre
  • Trois algorithmes : CHAID, CART, C4.5 – différences et similitudes
  • Exploration statistique avec des arbres
  • Modélisation avec des arbres
  • Extension : forêts aléatoires
  • Forces et faiblesses

Analyse discriminante

  • Principe de l’analyse discriminante linéaire
  • Méthode DISQUAL et fonction de score
  • Forces et faiblesses

Régression logistique

  • Principe de la régression logistique binaire
  • Commentaire d’un modèle
  • Forces et faiblesses
  • Réseaux de neurones
  • Architecture et logique
  • Construction d’un modèle, paramétrage
  • Forces et faiblesses

Comparaison des méthodes de scoring

  • Évaluer la qualité d’un modèle : courbe ROC, courbe de lift
  • Mise en oeuvre : transformer une probabilité en décision
  • Performance et robustesse : l’importance du jeu de test
Approche pédagogique

  Moyens pédagogiques

  • Exposé théorique de concepts
  • Démonstration
  • Expérimentation
  • Applications pratiques sur ordinateur
  • Etude de cas concrets
  • Échanges sur les pratiques et expériences des participants
  • Temps de questions / réponses