Techniques de scoring

 
  Toutes les formations  Data science
  3 jours       2000       Avancé    
  Prochaine session
28, 29, 30 mai 2018
Objectifs

Savoir construire un score pour la prédiction d’un phénomène binaire, depuis la phase d’échantillonnage jusqu’aux restitutions finales.


Prérequis

Connaissances de base en calcul des probabilités et en statistique (test, régression linéaire).


Contenu

La formation propose une présentation du concept de Data Mining et un panorama des méthodes statistiques regroupées sous ce terme – méthodes classiques de la statistique (analyse discriminante, régression logistique) et méthodes plus ” informatiques ” (arbres de décision, réseaux de neurones). De nombreux exemples issus de différents secteurs d’activité illustreront ces méthodes. Le but est de présenter les techniques et les pièges de l’étude de données volumineuses, avec un objectif d’aide à la décision. Cette formation ne recourt que peu au formalisme mathématique. Les formations Analyse discriminante et segmentation et Méthodes de régression pour données qualitatives permettront aux statisticiens d’approfondir la théorie et la mise en œuvre des méthodes prédictives classiques.

Présentation du data mining

  • Définition, positionnement par rapport à la statistique
  • Principales applications
  • Panorama des techniques prédictives et descriptives employées
  • Présentation de l’offre logicielle
  • Cycle d’un projet de scoring

Analyse descriptive liminaire

  • Graphiques utiles
  • Caractérisation par des tests statistiques
  • Sélection de variables par des tests (égalité de moyennes, de médianes, de distributions, khi-2)
  • Gestion des données manquantes

Arbres de décision

  • Construction d’un arbre
  • Trois algorithmes : CHAID, CART, C4.5 – différences et similitudes
  • Exploration statistique avec des arbres
  • Modélisation avec des arbres

Analyse discriminante

  • Principe de l’analyse discriminante linéaire
  • Méthode DISQUAL et fonction de score
  • Forces et faiblesses

Régression logistique

  • Principe de la régression logistique binaire
  • Commentaire d’un modèle
  • Forces et faiblesses

Comparaison des méthodes de scoring

  • Évaluer la qualité d’un modèle : courbe ROC, courbe de lift
  • Mise en oeuvre : transformer une probabilité en décision
  • Performance et robustesse : l’importance du jeu de test

Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.