Certificat de Data Scientist

 

Data Science

La demande de data scientists est croissante mais peu de formations de qualité existent.

Désormais éligible au CPF, ce certificat a pour ambition de permettre, à toute personne souhaitant valoriser la manne de données mise actuellement à sa disposition, d’accroître son champ de connaissances, d’acquérir un véritable savoir faire opérationnel et une très bonne maîtrise des techniques d’analyse de données et des outils informatiques nécessaires.


Prérequis

Cette formation est ouverte aux titulaires d’un master (mathématique, informatique, économétrie) ou aux personnes pouvant justifier du traitement et de l’analyse réguliers des données.

Le seul pré-requis est la connaissance du logiciel R (ces compétences minimales seront vérifiées en aval du dépôt de la candidature via un petit questionnaire) afin que les stagiaires puissent mettre en œuvre les méthodes qui vont être vues en cours.


Programme du certificat de Data Scientist

Il se construit autour de trois socles :

  • Statistiques pour les grandes volumétries et grandes dimensions
  • Outils d’analyse
  • Outils informatiques de traitement

Le rythme de la formation est de 3 jours par mois sur une durée de 6 mois (sauf session intensive). Certaines formations seront suivies d’une conférence présentant un domaine d’application ou un retour d’expérience d’un ancien stagiaire.


Certification

Le processus de certification est organisé en deux phases : le suivi des modules obligatoires dans leur intégralité, et la réussite du test de certification. Ces deux phases validées, le participant se voit décerner un Certificat de Data Scientist du Groupe des Écoles Nationales d'Économie et Statistique.



  Inscrivez-vous et bénéficiez d'une réduction sur nos autres formations !

En vous inscrivant à ce certificat, vous bénéficiez d'une réduction de 20% sur l'ensemble de nos formations catalogue durant l'année qui suit l'obtention de votre diplôme.


SESSIONS CLASSIQUES  (18 jours)
 

JOURS 1, 2, 3

Présentation du métier de data scientist

Les Big Data s’imposent comme une évolution majeure de l’exploitation des données au sein des organisations sur les plans métiers, fonctionnels et technologiques. Au travers d’une présentation de concepts fondamentaux, d’exemples et de cas concrets, cette formation introduit l’importance des enjeux du Big Data et du métier de data scientist.

Rappels de R

Rappels des objets de base de R (dataframe), connexion avec les bases de données, et principales fonctions de manipulation et en particulier split, (l)apply. L’objectif consiste à pouvoir manipuler les données, les nettoyer, les mettre en forme avant de les modéliser. Présentation de quelques bonnes pratiques de codes.

Hadoop – Hive – Pig

L’objectif de ce module est d’acquérir les connaissances pour mettre en œuvre les outils informatiques essentiels des Big Data. Ce module comprend des exercices pratiques pour acquérir des bases pratiques.

  • Présentation de l’écosystème Hadoop
  • Distribution du stockage et des calculs : MapReduce et ses déclinaisons (Hadoop, Pig, Hive…)
  • Les outils des Big Data temps réel
  • Utilisation d’une puissance informatique importante à la demande : le cloud computing
  • Exercices complémentaires dans le cadre de l’atelier de mise en œuvre des outils informatiques du Big Data sur une plate-forme Big Data et séance de travaux pratiques

JOURS 4, 5, 6

Manipulation des données avec R et bases de données SQL

Rappels sur les bases de données SQL. Utilisation de data.table et deplyr.

Manipulation des données avec R et bases de données NoSQL

Présentation des bases de données NoSQL et connexion avec R. Importation des fichiers JSON.

Visualisation

La restitution de l’information sous une forme intelligible est un facteur clé de la réussite d’un projet. Ce cours présentera les outils graphiques, le concept de dictionnaire et les outils disponibles dans R pour les mettre en œuvre. Une partie sera consacrée aux connections avec les bibliothèques de graphiques javascript. Enfin, afin de créer des pages web relativement facilement, une introduction à l’outil shiny de RStudio sera traitée.

JOURS 7, 8, 9

Modélisation

Dans ce module, nous nous intéresserons à la modélisation d’une variable d’intérêt par des variables potentielles explicatives.

  • Rappel des méthodes de régression (Moindres carrés, régression logistique)
  • Rappel des analyses classiques : analyse des résidus, choix de variables….
  • Il est souvent intéressant d’utiliser beaucoup de variables (celles existantes) ou d’en créer de nouvelles (transformation des variables existantes). Par conséquent, pour gérer ces variables nombreuses, il est en général utile d’utiliser des méthodes de régression sous contraintes comme par exemple les méthodes Ridge ou Lasso ou Elasticnet

Présentation des méthodes d’agrégation : bagging, boosting

Projet tutoré et sondages dans grandes bases

Certaines bases sont trop volumineuses pour être analysées entièrement ; des techniques de sondage seront présentées pour échantillonner ces bases.

JOURS 10, 11, 12

Machine learning

Un focus sera fait sur les méthodes de machine learning avec une présentation détaillée des Support Vector Machines (SVM), et plus généralement des méthodes à noyaux. Un rappel sera effectué sur les méthodes d’agrégation ainsi qu’une présentation des réseaux de neurones.

Introduction à l’optimisation et au Deep learning

Il s’agit d’acquérir des bases unificatrices permettant de modéliser, d’étudier et de commander des systèmes complexes, puis de découvrir le deep learning et ses principaux environnements afin de comprendre ses applications et la différence avec les approches de machine learning.

Réduction de dimension et classification

L’objectif de ce module est de comprendre les problèmes liés à la grande dimension (fléau de la dimension, concentration de la norme) et les différentes techniques pour essayer d’y remédier. Une seconde partie présentera les techniques de classification non supervisée (Kmeans, DBscan, CAH) ainsi que les limites de ces méthodes.

JOURS 13, 14, 15

Introduction au Text mining

A partir de données textuelles récoltées sur le web, ou à partir d’un corpus de textes, nous présenterons les outils qui permettent de résumer et de structurer l’information.

Introduction au Graph mining

Nous présenterons dans ce module les représentations classiques sous forme de réseau. Nous aborderons les liens entre réseaux et écriture matricielle (matrice d’adjacence, matrice d’incidence) et présenterons les définitions classiques. Nous aborderons la notion de communauté et présenterons les algorithmes actuels en mettant l’accent sur les relations possibles avec les algorithmes de classification non supervisée.

Projet tutoré

JOURS 16, 17, 18

Passage à l’échelle

L’objectif de ce module est de traiter de larges jeux de données avec R, de paralléliser les traitements et de passer à l’échelle.

Environnement juridique du Big Data et enjeux juridiques de la sécurité informatique

L’objectif de ce module est d’acquérir tout d’abord les connaissances juridiques nécessaires à la mise en place, l’utilisation, la conception de « solutions Big Data ». Puis d’avoir une présentation des notions de réseau, de client/serveur, de protocoles de communication et une vue générale des principales failles de sécurité.

Projet tutoré et Data camp

SESSIONS INTENSIVES  (15 jours)
 

M1. Module 1  (5 jours)

JOURS 1 à 5

1. Présentation du métier de data scientist ; rappels de R

2. Manipulation des données avec R ; data table, ddply, ggplot ; Atelier

3. Rappel des bases de données (SQL, no SQL, connexion avec R)

4. Hadoop, principes et usages

5. Bases de données avec Hive, introduction à Spark

M2. Module 2  (5 jours)

JOURS 6 à 10

1. Réduction de dimension et Classification

2. Visualisation ; Shiny

3. MCO, Anova, Régression logistique

4. Régression sous-contrainte ; Boosting

5. Atelier

M3. Module 3  (5 jours)

JOURS 11 à 15

1. Machine learning

2. Machine learning et introduction à l’optimisation

3. Introduction au text mining et au graph mining

4. Environnement juridique du big data

5. Enjeux de la sécurité informatique

6. Atelier


Éric Matzner-Lober<br><small>Responsable du certificat</small>

Éric Matzner-Lober
Responsable du certificat

Professeur de Statistique à l’Université de Rennes 2 et membre affilié au laboratoire National de Los Alamos, il a rédigé plusieurs livres sur R et les méthodes de régression. Il participe activement à des programmes de recherche en interaction avec des entreprises comme dans le project Smart Electric Lyon.

Magalie Fromont-Renoir

Magalie Fromont-Renoir

Docteur en mathématiques de l'Université Paris XI Orsay, elle est Professeur à l'Université Rennes 2 et enseignante à l'Ensai. Elle enseigne les probabilités, la statistique inférentielle en particulier les tests statistiques, la pratique de la statistique avec R, les méthodes de bootstrap et l'apprentissage statistique.

Martial Krawier

Martial Krawier

Il conçoit, réalise et gère, depuis plus de quinze ans, des applications orientées traitement de données et calcul pour des compagnies média et des banques d’investissement. Il met notamment en place des environnements de calcul : clusters HPC, grid computing (jusqu’à 10 000 serveurs) et les traitements statistiques et numériques nécessaires pour traiter en parallèle des opérations complexes comme de la gestion de risque sur des portefeuilles ou de l’aide à la décision.

Vincent Lefieux

Vincent Lefieux

Vincent Lefieux est diplômé de l’ENSAI et titulaire d’un doctorat en Statistique (Université Rennes 2). Après avoir occupé des postes d’ingénieur chercheur à EDF R&D puis RTE R&D, il dirige actuellement le pôle Data science à RTE. En parallèle il a donné de nombreux cours dans des écoles d’ingénieurs (Centrale Paris-ESSEC, ENSAE, ENSAI, ENPC, ENSTA) et a été maître de conférence associé (PAST) à l’UPMC de 2010 à 2015.

Hervé Mignot

Hervé Mignot

Docteur en informatique de l’université Paris-Sud Orsay, il travaille depuis près de 20 ans en utilisant des données pour traiter des problèmes réels par les techniques statistiques et de data mining. Après une expérience de 10 ans dans une société éditrice de technologies d’analyse rédictive, il a rejoint le cabinet de conseil Equancy en tant qu’associé. Dans les projets qu’il y mène pour ses clients, il fait quotidiennement appel à toutes les technologies de traitement de données, de data mining, de statistiques et des Big Data.




Grâce à cette formation de l’Ensae-Ensai Formation Continue, j'ai pu formater mon poste vers une plus grande utilisation de la data science (modélisation, utilisation des outils du Data Lab : R, Hive, Impala, Jupyter et Python, Spark avec R ou Python ...), tout en conservant une partie de mes missions précédentes. Cette formation m'a permis d'avoir un « coup d'avance » sur mes collègues et ainsi de pouvoir leur apporter mon aide sur ces sujets via la mise en place de modules de formation en interne

—   E. Mathelier (MAAF Assurances)



En suivant la formation je souhaitais faire une mise à jour de mes connaissances dans le domaine de la « data science ». On ne compte plus les conférences autour du Big Data, mais je cherchais une formation délivrant un contenu scientifique et technique solide. J’ai apprécié le mix entre les modules business, informatique, et nouveaux algorithmes statistiques (forêt aléatoire, boosting, bagging). La formation m’a permis de continuer à affirmer ma position d’expert en data/stat/visu chez SNCF en étant à l’aise avec les nouvelles technologies du big data.

—   A. Remy (SNCF)



J’ai vécu le certificat Data Scientist de l’Ensae-Ensai Formation Continue comme un vrai levier de développement personnel et professionnel. D’abord personnel car il m’a permis de me replonger de manière très qualitative dans un environnement très stimulant intellectuellement, avec un contenu mathématique et théorique de haut niveau. Ensuite professionnellement car c’est un formidable outil pour appliquer de la data science au sein de son organisation, par la mise en œuvre opérationnelle ou comme un support pour le pilotage de projets associés à l’exploitation efficace de la data. C’est avec grand plaisir que j’évoque cette expérience autour de moi et que je la recommande.

—   N. Garrigue (April Partenaires)



Le certificat Data Scientist est une formation complète et pointue qui aborde en profondeur les différentes dimensions de la data science à commencer par les différents types de modélisations ainsi que le sous-jacent mathématique associé. D’autres aspects, tels que ceux juridiques et Big Data/infrastructure sont aussi abordés et sont fondamentaux notamment la partie confidentialité des données, la prise en compte du RGPD (pour la partie juridique) ou l’industrialisation de modèles (pour la partie Big Data/infrastructure). Les compétences acquises ainsi que la réputation de cette formation sont deux des facteurs qui m’ont permis d’être nommé responsable de l’unité Data et BI de l’AMF et de lancer des chantiers autour de la data science (Datalab…)

—   T. Bennani (AMF)



Globalement, je suis très satisfait du cursus d’apprentissage. J’ai pu non seulement élargir mon horizon dans le domaine de la data science, notamment pour les outils de text mining et de big data, mais aussi mieux comprendre les principes mathématiques à la base du machine learning. J’ai surtout acquis une meilleure vision d’ensemble: le choix du modèle, son optimisation, la validation de l’estimation du risque.

—   F. Veneziano (Schiller International University)



J’ai abordé la formation avec des compétences de généraliste en statistiques et en informatique, que j’appliquais à la Finance. La formation m’a permis de rentrer dans le vif du sujet, sans devenir toutefois un spécialiste de la programmation, de découvrir le champ des possibles, de démystifier le domaine. Aujourd’hui, je suis plus sûr de moi sur ces questions, étant capable de diriger des travaux de Data Science

—   P. Ducos (Aurion)



Ce certificat m'a permis de vraiment entrer dans le sujet de la data science et du big data avec des intervenants investis dans leur sujet et qui transmettaient l'envie d'aller plus en profondeur. L’obtention du certificat datascientist est un gage de sérieux et de rigueur dans l’univers professionnel et cela facilite la recherche de postes dans le secteur de la datascience et du big data. J’ai pu en faire l’expérience dans mes propres recherches de poste.

—   P. Carrelet (consultant datascience)



Je suis très heureuse d’avoir suivi le certificat Data Scientist à l’Ensae-Ensai Formation Continue. Les problématiques Big Data sont au cœur de mon métier (j'occupe actuellement le poste d'expert data chez SNCF Transilien) puisque nous travaillons à la mise en place de solutions pour stocker et analyser les données volumineuses dont nous disposons (données de ventes, données clients, requêtes d’itinéraire, données open data…). J’ai pu, grâce à cette formation, mettre à jour mes connaissances statistiques, mieux appréhender le machine learning, et compléter mes connaissances sur la visualisation, les enjeux de stockage, les différents outils et technologies (SQL, no SQL, PIG, Spark, R…), les aspects juridiques. Le projet réalisé dans le cadre de la formation a permis de montrer à l’équipe ce qui pouvait être fait avec d’autres outils que ceux utilisés habituellement. Les conférences « retour d’expérience », la présence d’intervenants de différents horizons, ainsi que les échanges avec les autres participants venant d’entreprises variées, ont été riches d’enseignements.

—   F. Recours (SNCF)



Le certificat m’a donné un bonne vision d’ensemble du métier de Data Scientist. J’ai pu approfondir certaines techniques de modélisation ou d’exploration de données dans mon poste de Data Scientist à Enedis. Pour les autres, au-delà des connaissances acquises au cours du certificat, je saurai quoi et où chercher. Au quotidien, il m’arrive souvent de consulter le cours, les TD ou des ressources documentaires communiquées pendant la formation. Les outils et technologies Big Data adoptées à Enedis (HDFS, Hive, Spark, etc.) ont été présentées pendant la formation, ce qui m’a permis d’avoir une meilleure vision des avantages et inconvénients. Le projet m’a également beaucoup apporté, notamment parce que mon binôme avait un profil différent du mien.

—   T. Pilaud (Enedis)