Data science
Autres thèmes de formation

 

En complément des formations inter-entreprises de notre catalogue Data science, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.


Durée indicative : 1 jour


OBJECTIFS

Avoir une vision des différents aspects des Big Data.

Thèmes abordés

La formation présente les différents aspects des Big Data : les usages, les technologies et les impacts dans l’entreprise et la société, en présentant son origine, ses dernières applications, les technologies spécifiques mais aussi l’organisation des projets et des équipes de data science, et les sources d’informations pour suivre le sujet au-delà de la journée.

Qu’est-ce que les Big Data ?

  • Qu’est-ce que les Big Data ?
  • Comment caractériser les Big Data et expliquer leur essor
  • Origines et brève histoire
  • Implication technologique
  • Illustrations d’applications des Big Data
  • Nouveaux modèles économiques
  • Nouvelles sources de données
  • Data Lake et entrepôt de données

Technologies et outils propres aux Big Data

Enjeux technologiques, data centers, clusters
Présentation des principes de MapReduce (calcul distribué) Acteurs des technologies Big Data Zoom sur Hadoop et ses outils Outils et environnement de modélisation

Impacts, organisation, compétence des équipes

  • Risques des Big Data
  • Equipe Big Data & data lab
  • Conduite des projets Big Data
  • Métiers & compétences
  • S’informer et se former

Durée indicative : 2 jours


OBJECTIFS

Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).

Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.

Thèmes abordés

La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.

Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.

Statistique, apprentissage et data mining

  • Définitions, positionnement
  • Principales applications
  • Panorama des méthodes et de l’offre logicielle
  • Choix d’une méthode et ajustement des paramètres

Méthodes à noyaux, SVM et SVR

  • Support Vector Machines pour la discrimination binaire ou multi-classes
  • Support Vector Regression pour la régression
  • Ajustement des paramètres

Méthodes d’agrégation et bootstrap

  • Agrégation de règles de prédiction : intérêt
  • Principe du bootstrap
  • Méthodes de boosting (Adaboost et logitboost)
  • Méthodes de bagging, forêts aléatoires

Durée indicative : 4 jours (2+2)


OBJECTIFS

Comprendre et analyser les enjeux, les méthodes et les conséquences opérationnelles de l’utilisation du Big Data en actuariat.

Thèmes abordés

La Data-Science au service de la souscription et du ciblage des clients

  • Profilage pour la souscription en ligne
  • Méthodes de conception de questionnaires synthétiques pour la souscription en ligne
  • Lutte contre la fraude et l’anti-sélection
  • Rétention de clients : anticipation des résiliations, risque de rachat
  • Études de cas

Tarification et provisionnement

  • Confrontation entre les méthodes usuelles (modèles linéaires généralisés) et les méthodes issues du machine learning
  • Combinaisons éventuelles entre nouvelles méthodes et méthodes traditionnelles
  • Indicateurs de risque et suivi du risque
  • Mise en œuvre sur des exemples

Nouvelles données

  • Open data : les nouvelles sources de données
  • Les utilisations possibles
  • Nouvelles incertitudes et nouveaux risques éventuels liés à leur utilisation

Les risques à temps de développement long

  • Stabilité et fiabilité des données utilisées
  • Prise en compte d’évolutions temporelles
  • Méthodes de prévision
  • Illustrations

Durée indicative : 1 jour


OBJECTIFS

Acquérir les connaissances juridiques nécessaires à la mise en place, l’utilisation, la conception de « solutions BIG DATA » dans la sphère de l’actuariat au regard des impératifs la loi n°78-17 dite « Informatique et libertés » du 6 janvier 1978 modifiée et du droit de la propriété intellectuelle.

Thèmes abordés

La formation présente l’ensemble des contraintes juridiques applicables à la manipulation de données à l’aide de solution dite de « Big Data » dans le domaine de l’actuariat. Sera ainsi traitée la question de l’impact du droit sur les traitements de données non structurées provenant de diverses sources mise au service de l’analyse prédictive de l’actuaire. Par des mises en situation (cas pratiques, FAQ), il s’agira de définir les bonnes pratiques au-delà de l’identification des sources de risques juridiques et de responsabilité.

Introduction

Grâce à l’avènement du Big Data, les algorithmes utilisés dans le domaine de l’analyse prédictive conduisent les actuaires à manipuler toujours plus de données. Deux questions essentielles se posent pour l’actuaire : - Ai-je le droit de manipuler ce type de données et si oui selon quelles contraintes ? - Quelle propriété pour cette nouvelle génération d’algorithme, pour les analyses effectuées et pour les données collectées ?

Actuariat – Big Data et protection de la vie privée

La mise en œuvre d’analyses prédictives alimentées par des flux de données provenant de solution Big Data impose à l’actuaire de s’assurer de la légalité de la provenance de ces données et des contraintes imposées. Il convient dès lors de s’assurer du respect de la loi n°78-17 du 6 janvier 1978 modifiée depuis le moment de la collecte jusqu’à la destruction des données. Cette appréhension de la légalité des traitements et des contraintes légales applicable suppose de maîtriser d’une part les définitions (données à caractère personnel, responsable de traitement, soustraitant, destinataires des données, flux transfrontière etc.) et, d’autre part les obligations imposées par le législateur.

Actuariat – Big Data et propriété intellectuelle

Les solutions dites de Big Data utilisées dans le domaine de l’actuariat posent également des questions liées au droit de la propriété intellectuelle. Dans l’attente de la création d’un « droit des algorithmes », l’actuaire professionnel est ainsi confronté d’un côté à la nécessité de protection et de valorisation des solutions d’analyse prédictive utilisées et/ou développées par ses soins et de l’autre à l’obligation de s’assurer du respect des droits des producteurs de bases de données lors des opérations de collectes de données effectuées.