Data science
Autres thèmes de formation

 

En complément des formations inter-entreprises de notre catalogue Data science, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.


Durée indicative : 2 jours


OBJECTIFS

Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).

Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.


Thèmes abordés

La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.

Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.

Statistique, apprentissage et data mining

  • Définitions, positionnement
  • Principales applications
  • Panorama des méthodes et de l’offre logicielle
  • Choix d’une méthode et ajustement des paramètres

Méthodes à noyaux, SVM et SVR

  • Support Vector Machines pour la discrimination binaire ou multi-classes
  • Support Vector Regression pour la régression
  • Ajustement des paramètres

Méthodes d’agrégation et bootstrap

  • Agrégation de règles de prédiction : intérêt
  • Principe du bootstrap
  • Méthodes de boosting (Adaboost et logitboost)
  • Méthodes de bagging, forêts aléatoires

Durée indicative : 4 jours (2+2)


OBJECTIFS

Comprendre et analyser les enjeux, les méthodes et les conséquences opérationnelles de l’utilisation du Big Data en actuariat.


Thèmes abordés

La Data-Science au service de la souscription et du ciblage des clients

  • Profilage pour la souscription en ligne
  • Méthodes de conception de questionnaires synthétiques pour la souscription en ligne
  • Lutte contre la fraude et l’anti-sélection
  • Rétention de clients : anticipation des résiliations, risque de rachat
  • Études de cas

Tarification et provisionnement

  • Confrontation entre les méthodes usuelles (modèles linéaires généralisés) et les méthodes issues du machine learning
  • Combinaisons éventuelles entre nouvelles méthodes et méthodes traditionnelles
  • Indicateurs de risque et suivi du risque
  • Mise en œuvre sur des exemples

Nouvelles données

  • Open data : les nouvelles sources de données
  • Les utilisations possibles
  • Nouvelles incertitudes et nouveaux risques éventuels liés à leur utilisation

Les risques à temps de développement long

  • Stabilité et fiabilité des données utilisées
  • Prise en compte d’évolutions temporelles
  • Méthodes de prévision
  • Illustrations