Certificat de Data Scientist
Data Science : Savoir collecter, décrypter, analyser et prédire à partir de mégadonnées

La demande de data scientists est croissante mais peu de formations de qualité existent. Ce certificat, éligible au CPF, a pour ambition de permettre à toute personne souhaitant valoriser la manne de données mise actuellement à sa disposition, d’accroître son champ de connaissances, d’acquérir un véritable savoir faire opérationnel et une très bonne maîtrise des techniques d’analyse de données et des outils informatiques nécessaires.

Ce que vous apprendrez

Gestion des données
Machine Learning
Réduction de dimension
Cloud computing
Deep Learning
Visualisation
Pipelines de traitements Python
Big data processing avec Spark
Droit et éthique de la donnée

Langages de programmation

Nous ouvrons à intervalle régulier des promotions reposant sur l’emploi du seul langage Python ou l'emploi conjoint des langages R et Python.

La première configuration répond aux besoins des candidats qui préfèrent n’utiliser que Python. Dans ce cas, les références à R sont restreintes aux seuls usages pour lesquels le langage est significativement plus adapté.

Dans la seconde configuration, qui tire partie des qualités respectives des deux langages, R sera notamment utilisé pour les bases du Machine learning, la manipulation de données, la visualisation et le Graph mining. Python le sera pour le Deep learning et les réseaux de neurones ainsi que le traitement du langage naturel.

Prérequis

Cette formation est ouverte aux titulaires d’un master (mathématiques, informatique, économétrie) ou aux personnes pouvant justifier du traitement et de l’analyse réguliers des données.

Le pré-requis principal est de connaitre le langage R ou Python (bibliothèques numpy, pandas, matplotlib) afin de pouvoir implémenter les méthodes étudiées en cours. Ces compétences seront vérifiées en aval du dépôt de la candidature via un questionnaire en ligne.

Certification

Outre le suivi des modules obligatoires dans leur intégralité, le processus de certification est organisé en deux phases : la réussite au test de certification et la soutenance d'un projet réalisé tout au long du cursus.

Ces deux phases validées, le participant se voit décerner un Certificat de Data Scientist du Groupe des Écoles Nationales d'Économie et Statistique.

Une question ? Prenez RDV avec nous ! Télécharger la plaquette

Notre cursus de formation en data science offre une vue d'ensemble des principaux aspects de ce domaine en pleine expansion. Les participants acquièrent des compétences techniques essentielles, ainsi qu'une compréhension approfondie des applications, des défis et des responsabilités liés à la data science. Voici les principaux aspects abordés tout au long de ce parcours.

Gestion des données avec Python Sessions Python

Les participants approfondissent leurs connaissances et leur pratique du langage Python pour la manipulation et l'analyse des données. Ils mettent également en œuvre des techniques avancées pour importer, nettoyer, transformer et visualiser des données. Ils acquièrent enfin des compétences en programmation et requêtage de bases de données (SQL et NoSQL).

Gestion des données avec R Sessions

Ce module se concentre sur l'utilisation de R, l'autre langage de programmation populaire pour la manipulation et l'analyse des données. Les participants approfondissent leurs notions du langage R, ainsi que des techniques avancées pour importer, nettoyer, transformer et visualiser des données. Ils acquièrent également des compétences en programmation et requêtage de tout types de bases de données.

Modules communs

Les travaux pratiques sont réalisés en R ou Python suivant la version du certificat choisie.

Machine learning

Ce module propose une immersion dans les techniques classiques de machine learning supervisé. Vous débuterez avec les méthodes linéaires (régression linéaire ordinaire - MCO pour la régression et régression logistique pour la classification supervisée), puis les méthodes pénalisées (comme Lasso et Ridge) pour éviter le sur-apprentissage en imposant des contraintes sur les coefficients du modèle. L'apprentissage d'algorithmes basés sur des arbres de décision se poursuivra avec des méthodes plus avancées telles que Random Forest, qui utilise une combinaison d'arbres pour améliorer la robustesse du modèle, et boosting, qui construit des modèles séquentiels en pondérant les erreurs des modèles précédents pour améliorer les performances. Enfin, le module couvre les SVM (machines à vecteurs de support), qui sont efficaces pour la classification de données complexes avec des frontières non linéaires.
Voir notre article sur le Machine learning

Réduction de dimension

Ce module se concentre sur les méthodes de réduction de dimension, qui visent à simplifier les ensembles de données à haute dimension tout en conservant autant d'information que possible. L'analyse factorielle (ACP — analyse en composantes principales, et ACM — analyse des correspondances multiples) est utilisée pour réduire la complexité des données tout en identifiant les facteurs sous-jacents les plus importants. Le clustering (comme les K-means, les méthodes hiérarchiques, DBSCAN ou EM) regroupe les observations similaires sans supervision préalable, utile pour identifier des segments ou des patterns dans des données non étiquetées. Ces méthodes vous permettront de simplifier l’analyse de données volumineuses et complexes.

Cloud computing

Ce module se concentre sur les technologies de cloud computing pour exécuter des analyses à grande échelle, héberger des applications ou modéliser des données sur des plateformes comme Amazon Web Services (AWS), Microsoft Azure et Google Cloud. Le cours couvre la mise en place d’infrastructures flexibles et scalables, permettant d’adapter les ressources en fonction des besoins, tout en optimisant les coûts. Sont également abordés les concepts de virtualisation, de conteneurisation (comme Docker), et d’orchestration (Kubernetes), ainsi que la gestion des bases de données, le stockage de fichiers volumineux et la mise en place de services automatisés sur le cloud.

Deep learning

Ce module explore les concepts avancés du Deep learning, une sous-catégorie du machine learning qui s’appuie sur des réseaux de neurones profonds. Il introduit les bases conceptuelles (réseaux neuronaux, fonctions d'activation, backpropagation, optimisation) et propose des applications concrètes sur des données structurées. Pour les images, les réseaux de neurones convolutifs (CNNs) seront utilisés pour des tâches comme la classification ou la reconnaissance d'images. Pour les textes, des méthodes comme les réseaux neuronaux récurrents (RNNs), les LSTMs ou les modèles de transformers seront étudiés pour des tâches telles que l’analyse de sentiments. Vous implémenterez ces méthodes à l’aide des frameworks TensorFlow - Keras et Pytorch.
Voir notre article sur le Deep learning

Visualisation

Ce module est dédié à la visualisation des données, une compétence essentielle pour communiquer des résultats d'analyses de manière claire et impactante. Il vous permettra de créer des visualisations interactives et statiques adaptées à différents publics. L'accent sera mis sur la transformation de données complexes en graphiques explicites, en utilisant des types de visualisation comme les histogrammes, diagrammes de dispersion, heatmaps, et bien d'autres, pour produire des récits via les données.

Pipeline de traitements Python

Ce module vous permettra de construire des pipelines de traitement de données automatisés, pour transformer, nettoyer, analyser, et modéliser des données de manière répétable et évolutive. En utilisant des bibliothèques adaptées (Scikit-learn pour Python, tidymodels pour R) pour les traitements de données, et d’autres comme Airflow ou Luigi pour orchestrer les différentes étapes du pipeline, il sera possible de créer des workflows modulaires et automatisés. Ce processus est essentiel pour l’ingénierie des données, permettant de prendre en charge de manière efficace de grands volumes de données, tout en assurant la traçabilité et la reproductibilité des analyses.

Big Data Processing avec Spark

Ce module se concentre sur le traitement de grandes quantités de données (Big Data) en utilisant Apache Spark, un moteur de traitement de données distribué. Spark permet d’exécuter des calculs massifs en mémoire, bien plus rapidement que les systèmes traditionnels. Les RDDs (Resilient Distributed Datasets), les algorithmes parallélisés, le streaming de données et l’intégration avec des bases de données comme Hadoop ou Cassandra vous permettront de manipuler des données massives en temps réel ou par lots.

Droit et éthique de la donnée

Ce module aborde les aspects juridiques et éthiques liés à l'utilisation des données. Il couvre les réglementations comme le Règlement Général sur la Protection des Données (RGPD) en Europe, qui régit la collecte, l'utilisation et la protection des données personnelles. L’accent sera mis sur la conformité légale, la gestion des risques et la manière de minimiser les biais algorithmiques. Sur le plan éthique, vous explorerez les dilemmes posés par l’intelligence artificielle et le machine learning, en particulier lorsqu'il s'agit d'équité, de transparence et d’impact social.

Formation ouverte aux titulaires d’un master ou aux professionnels expérimentés

Cette formation est spécialement conçue pour les individus ayant déjà un solide bagage académique ou une expérience professionnelle dans des domaines tels que les mathématiques, l'informatique, ou l'économétrie.

Les titulaires d’un master dans ces disciplines sont particulièrement encouragés à postuler. Les personnes qui, même sans un diplôme spécifique, peuvent démontrer une pratique régulière et significative du traitement et de l’analyse des données sont également éligibles. Cela permet de s’assurer que tous les participants possèdent une base solide et les compétences nécessaires pour tirer pleinement profit des enseignements dispensés.

Prérequis en programmation : maîtrise de R ou Python

Pour assurer un suivi efficace des cours et la mise en pratique des méthodes étudiées, la formation requiert une bonne maîtrise de R (pour les sessions spécialisées R) ou Python (pour les sessions Python).

Pour les sessions Python, une connaissance approfondie des bibliothèques essentielles telles que numpy, pandas, et matplotlib est demandée, car elles sont couramment utilisées pour la manipulation, l’analyse, et la visualisation de données. Ces compétences techniques sont indispensables car elles permettront aux participants de mettre en œuvre directement les concepts et algorithmes vus en cours.

Éric Matzner-Lober<br><small>Responsable du certificat</small>

Éric Matzner-Lober
Responsable du certificat

Professeur de Statistique à l’Université de Rennes 2 et membre affilié au laboratoire National de Los Alamos, il a rédigé plusieurs livres sur R et les méthodes de régression. Il participe activement à des programmes de recherche en interaction avec des entreprises comme dans le project Smart Electric Lyon.

Fei Gao

Diplômée de l’INSA en informatique, Fei GAO est professeur à l’Ecole des hautes études en santé publique et spécialisée dans la thématique de données massives en santé. Elle participe activement la mise en place de dispositif de formations au tour de Système National des Données de Santé en partenariat avec l’Assurance Maladie et l’Agence Technique de l'Information sur l'Hospitalisation. Elle anime des modules sur les traitements des données avec Python, R, SAS/SAS Enterprise Guide et aussi sur l’analyse spatiale (Arcgis et Qgis).

Xavier Gendre

Expert en Data Science et en Statistique, il est membre associé de l'Institut de Mathématiques de Toulouse et titulaire d'une Habilitation à Diriger des Recherches (Université Toulouse I Capitole) et d'un doctorat (Université Nice Sophia Antipolis) en mathématiques appliquées, spécialité Statistique. Après avoir été Maître de Conférences en Statistique à l'Université Toulouse III Paul Sabatier et Professeur de Statistique et Science des Données à l'ISAE SUPAERO, il modélise et développe des outils de traitement de données et d'aide à la décision pour la société Pathway.

Martial Krawier

Il conçoit, réalise et gère, depuis plus de quinze ans, des applications orientées traitement de données et calcul pour des compagnies média et des banques d’investissement. Il met notamment en place des environnements de calcul : clusters HPC, grid computing (jusqu’à 10 000 serveurs) et les traitements statistiques et numériques nécessaires pour traiter en parallèle des opérations complexes comme de la gestion de risque sur des portefeuilles ou de l’aide à la décision.

Vincent Lefieux

Vincent Lefieux est diplômé de l’ENSAI et titulaire d’un doctorat en Statistique (Université Rennes 2). Après avoir occupé des postes d’ingénieur chercheur à EDF R&D puis RTE R&D, il est actuellement responsable de la feuille de route IA à RTE. En parallèle il a donné de nombreux cours dans des écoles d’ingénieurs (ENSAI, ENPC, ENSTA) et a été maître de conférence associé (PAST) à l’UPMC de 2010 à 2015.

Frédéric Logé-Munerel

Frédéric Logé est diplômé de l’ENSAI et titulaire d’un doctorat en Mathématiques Appliquées de l'Ecole Polytechnique (thème: Apprentissage par Renforcement). Actuellement en poste chez SONIO, il développe depuis plusieurs années des algorithmes de Computer Vision pour l'analyse d'échographies fœtales, contribue aux soumissions réglementaires des produits médicaux (marquage FDA & CE), s'assure de l'alignement entre produit et data. En parallèle il donne des cours et TP en formation initiale (ENSAI) et continue (X-EXED, CEPE).

Qu'est-ce qu'un Data Scientist ?

Le fait d’avoir des données n’est pas, en soi, suffisant. Si vous avez les données et qu’elles restent là passivement, cela ne vous aidera pas. De même, si vous utilisez les données pour une prise de décisions à l’ancienne, cela ne vous aidera pas. Vous devez repenser vos processus opérationnels liés à la façon dont vous prenez les décisions.

Erik Brynjolfsson, Directeur du MIT Initiative on the Digital Economy

Le volume de données riches en informations signifiantes a explosé ces dernières années. Pour donner un seul exemple, DELL EMC a publié un rapport intitulé Global Data Protection Index (2019) dans lequel le groupe indique une croissance de plus de 700% du volume de données entre 2016 et 2018, en France seulement. Et si ce volume augmente considérablement, c’est notamment parce que la variété des données n’a jamais été aussi importante, celles-ci se rapportant à la quasi-totalité des secteurs économiques.

L’analyse de ces données massives (désignées souvent par le terme « Big Data ») est ainsi devenue essentielle pour gagner en performance, y compris dans les secteurs non-marchands, avec un enjeu qui ne se limite plus à un seul objectif de croissance. Ce que l’on appelle communément la transformation digitale, à laquelle se convertissent un grand nombre d’organisations, vise également des objectifs de type qualitatif ou encore prédictif. A l’heure où ces technologies et les outils qui en découlent sont de plus en plus répandus, le besoin d’une main d’œuvre experte et spécialisée dans l’exploitation des données s’accroît considérablement. Les analyses menées par le Data Scientist confère à ce dernier un rôle clé au sein d’une entreprise.

Le rôle endossé par le Data Scientist et ses principales missions

Le Data Scientist convertit des masses de données, structurées ou non, en enseignements exploitables, offrant un levier et un relais de croissance considérable à l’entreprise qui l’emploie. A l’appui de ses analyses, il accompagne la prise de décision managériale. Pour ce faire, au quotidien, le Data Scientist :

Extrait, uniformise et structure les données
Teste et contrôle la qualité de ces dernières
Mène des analyses exploratoires de données (mission de datamining)
Met en œuvre des modélisations statistiques des données à des fins de prévision (aide à la décision)
Restitue le résultat de ses analyses aux décideurs concernés (par de la visualisation de données)

En un mot, le Data Scientist donne du sens aux données et en tire de la valeur. Mais il ne travaille pas seul, bien au contraire. Le Data Scientist relève souvent d’une équipe chargée de la gestion des données dont font également partie Data Engineer et Data Analyst. Tandis que le Data Engineer joue le rôle de garant des différents outils et infrastructures, le Data Analyst lui, est plus en lien avec les interprétations métiers et utilise parfois les algorithmes développés par les Data Scientists. La focale du Data Scientist, porte sur une analyse et une modélisation plus mathématiques des données à l’appui d’outils avancés tels que le Deep learning.

Bien qu’il s’agisse d’un métier récent, le Data Scientist peut non seulement travailler dans un large éventail de secteurs d’activités tel que la finance, l’e-commerce, la publicité ou le domaine médical mais également dans une grande variété de structures, aussi bien publiques que privées, petites ou grandes.

Les compétences et qualités du métier

Si l’on s’intéresse aux compétences nécessaires à l’exercice de ce métier, le Data Scientist est d’abord doté d’un solide bagage en statistiques, mathématiques appliquées et en programmation informatique. En effet, un tel poste requiert la maîtrise d’au moins un langage, tel que Python ou R. Il en va de même pour les bases de données (SQL / NoSQL) ainsi que pour les environnements Hadoop / Spark. Une expertise en méthodes de Machine Learning et Deep learning est également de rigueur. De sérieuses capacités d’analyse sont aussi demandées dans le cadre d’analyses prédictives pertinentes. A cela, s’ajoutent éventuellement des connaissances liées au secteur auquel il est rattaché (en e-commerce, dans le secteur financier ou médical par exemple). Telles sont les compétences techniques majeures que l’on retrouve chez un Data Scientist.

Du point de vue des qualités à l’appui des compétences précédemment listées, le Data Scientist se doit d’être polyvalent pour mener à bien la variété de ses missions. Il possède une certaine qualité d’écoute. C’est également un bon communiquant et un pédagogue afin de restituer avec clarté le résultat de ses analyses à un auditoire non spécialiste. Généralement intégré à une équipe, une certaine aptitude à travailler en groupe est recommandée. De manière plus générale et inhérente à de nombreux métiers Data, une curiosité intellectuelle et un goût pour l’innovation sont souhaitables. Par le développement d’une veille méthodologique, Il se tient constamment au courant des nouveautés, auxquelles il s’adapte rapidement, afin de pouvoir travailler avec de nouveaux outils.

Témoignages

Grâce à cette formation de l’Ensae-Ensai Formation Continue, j'ai pu formater mon poste vers une plus grande utilisation de la data science (modélisation, utilisation des outils du Data Lab : R, Hive, Impala, Jupyter et Python, Spark avec R ou Python ...), tout en conservant une partie de mes missions précédentes. Cette formation m'a permis d'avoir un « coup d'avance » sur mes collègues et ainsi de pouvoir leur apporter mon aide sur ces sujets via la mise en place de modules de formation en interne

— E. Mathelier (MAAF Assurances)

En suivant la formation je souhaitais faire une mise à jour de mes connaissances dans le domaine de la « data science ». On ne compte plus les conférences autour du Big Data, mais je cherchais une formation délivrant un contenu scientifique et technique solide. J’ai apprécié le mix entre les modules business, informatique, et nouveaux algorithmes statistiques (forêt aléatoire, boosting, bagging). La formation m’a permis de continuer à affirmer ma position d’expert en data/stat/visu chez SNCF en étant à l’aise avec les nouvelles technologies du big data.

— A. Remy (SNCF)

J’ai vécu le certificat Data Scientist de l’Ensae-Ensai Formation Continue comme un vrai levier de développement personnel et professionnel. D’abord personnel car il m’a permis de me replonger de manière très qualitative dans un environnement très stimulant intellectuellement, avec un contenu mathématique et théorique de haut niveau. Ensuite professionnellement car c’est un formidable outil pour appliquer de la data science au sein de son organisation, par la mise en œuvre opérationnelle ou comme un support pour le pilotage de projets associés à l’exploitation efficace de la data. C’est avec grand plaisir que j’évoque cette expérience autour de moi et que je la recommande.

— N. Garrigue (April Partenaires)

Le certificat Data Scientist est une formation complète et pointue qui aborde en profondeur les différentes dimensions de la data science à commencer par les différents types de modélisations ainsi que le sous-jacent mathématique associé. D’autres aspects, tels que ceux juridiques et Big Data/infrastructure sont aussi abordés et sont fondamentaux notamment la partie confidentialité des données, la prise en compte du RGPD (pour la partie juridique) ou l’industrialisation de modèles (pour la partie Big Data/infrastructure). Les compétences acquises ainsi que la réputation de cette formation sont deux des facteurs qui m’ont permis d’être nommé responsable de l’unité Data et BI de l’AMF et de lancer des chantiers autour de la data science (Datalab…)

— T. Bennani (AMF)

Globalement, je suis très satisfait du cursus d’apprentissage. J’ai pu non seulement élargir mon horizon dans le domaine de la data science, notamment pour les outils de text mining et de big data, mais aussi mieux comprendre les principes mathématiques à la base du machine learning. J’ai surtout acquis une meilleure vision d’ensemble: le choix du modèle, son optimisation, la validation de l’estimation du risque.

— F. Veneziano (Schiller International University)

J’ai abordé la formation avec des compétences de généraliste en statistiques et en informatique, que j’appliquais à la Finance. La formation m’a permis de rentrer dans le vif du sujet, sans devenir toutefois un spécialiste de la programmation, de découvrir le champ des possibles, de démystifier le domaine. Aujourd’hui, je suis plus sûr de moi sur ces questions, étant capable de diriger des travaux de Data Science

— P. Ducos (Aurion)

Ce certificat m'a permis de vraiment entrer dans le sujet de la data science et du big data avec des intervenants investis dans leur sujet et qui transmettaient l'envie d'aller plus en profondeur. L’obtention du certificat datascientist est un gage de sérieux et de rigueur dans l’univers professionnel et cela facilite la recherche de postes dans le secteur de la datascience et du big data. J’ai pu en faire l’expérience dans mes propres recherches de poste.

— P. Carrelet (consultant datascience)

Je suis très heureuse d’avoir suivi le certificat Data Scientist à l’Ensae-Ensai Formation Continue. Les problématiques Big Data sont au cœur de mon métier (j'occupe actuellement le poste d'expert data chez SNCF Transilien) puisque nous travaillons à la mise en place de solutions pour stocker et analyser les données volumineuses dont nous disposons (données de ventes, données clients, requêtes d’itinéraire, données open data…). J’ai pu, grâce à cette formation, mettre à jour mes connaissances statistiques, mieux appréhender le machine learning, et compléter mes connaissances sur la visualisation, les enjeux de stockage, les différents outils et technologies (SQL, no SQL, PIG, Spark, R…), les aspects juridiques. Le projet réalisé dans le cadre de la formation a permis de montrer à l’équipe ce qui pouvait être fait avec d’autres outils que ceux utilisés habituellement. Les conférences « retour d’expérience », la présence d’intervenants de différents horizons, ainsi que les échanges avec les autres participants venant d’entreprises variées, ont été riches d’enseignements.

— F. Recours (SNCF)

Le certificat m’a donné un bonne vision d’ensemble du métier de Data Scientist. J’ai pu approfondir certaines techniques de modélisation ou d’exploration de données dans mon poste de Data Scientist à Enedis. Pour les autres, au-delà des connaissances acquises au cours du certificat, je saurai quoi et où chercher. Au quotidien, il m’arrive souvent de consulter le cours, les TD ou des ressources documentaires communiquées pendant la formation. Les outils et technologies Big Data adoptées à Enedis (HDFS, Hive, Spark, etc.) ont été présentées pendant la formation, ce qui m’a permis d’avoir une meilleure vision des avantages et inconvénients. Le projet m’a également beaucoup apporté, notamment parce que mon binôme avait un profil différent du mien.

— T. Pilaud (Enedis)

Témoignages

Retours d'expérience

Anne-Lise Pépin, ingénieure de projets statistiques à l’Institut Français du Cheval et de l’Equitation (IFCE), Alumni de la promotion BD20 (2021), ainsi que Christophe Lesieur, chef de la division enquêtes auprès des ménages (DEM) à la Direction régionale de l’INSEE Bretagne (promotion BD25 - 2022), ainsi que Salim Lyamani, chargé d’études statistiques et actuarielles chez COVEA (promotion BD26 - 2023) nous expliquent ce que leur ont apporté le Certificat de Data Scientist. Laissons leur la parole...

Pouvez-vous vous présenter en quelques mots ?

Anne-Lise. J’ai 37 ans, je suis ingénieure agronome de formation. Après plusieurs emplois aux missions diverses, j’occupe le poste d’ingénieure de projets statistiques à l'IFCE depuis 7 ans maintenant.

Christophe. J'ai 41 ans, je travaille à l'Insee où je suis chef du pôle Logement, en charge des indices de prix de logement et de loyers d’habitation.

Salim. Après une Licence en économie gestion, j’ai validé un Master en statistique & actuariat. Sur le plan professionnel, je suis aujourd’hui chargé d’études statistiques et actuarielles dans une assurance / mutuelle (COVEA) depuis 5 ans maintenant.

Pour quelle raison avez-vous décidé de vous former à la Data Science ?

Anne-Lise. En 2021, j’ai suivi la formation de Data Scientist pour approfondir mes connaissances en traitement de données et en analyse statistique, surtout autour du machine learning. Je voulais gagner en efficacité sur la partie données de mon travail quotidien.

Christophe. À la croisée des chemins entre la vieille école de formation statistique et le boum du big data, je ne voyais pas comment poursuivre ma carrière et encadrer de jeunes data scientists sans avoir au moins une formation approfondie sur le sujet. Cela tombait bien, je changeais d’un poste de management pur de 40 personnes pour un poste d’encadrement technique avec un enjeu d’innovation et d’enrichissement des indices de loyers à partir des données d’annonces issues du web.

Salim. Parce que dans mon métier, j’utilise tout ce qui est méthodes statistiques, tout ce qui touche à la donnée en général et je cherchais à aller plus loin. J’ai aussi remarqué que les métiers & besoins évoluaient beaucoup, donc il était temps de se mettre à la page. C’est une démarche personnelle qui est tout de même appréciée par ma hiérarchie, en ce qu’elle peut aussi répondre à des besoins du service et du département.

Pourquoi avoir choisi l’Ensae-Ensai Formation Continue ?

Anne-Lise. J’avais suivi quelques formations courtes au Cepe et j’avais apprécié l’organisation des stages et la proximité avec les encadrants.

Christophe. C’était pour moi la formation la plus adaptée à mon environnement de travail à l’Insee. Essentiellement sur R et en présentiel, elle me permettait de réellement m’investir et le langage était conforme au langage le plus courant à l’Insee.

Salim. D’une part, c’est le nom ENSAE ENSAI qui était rassurant, c’est gage de qualité par rapport à ce qu’on peut connaître de l’école et ses formations aux métiers de la data. D’autre part, je trouvais le programme assez complet, bien détaillé avec des intervenants à chaque fois spécialistes de leur domaine d’enseignement. Ça donnait confiance. Troisième chose enfin, c’est le format de la formation avec le rythme de 3 jours par mois pendant 6 mois qui m’a intéressé. La formation tient en 18 jours, et elle nous laisse à la fois le temps de découvrir de nombreux concepts tout en nous maintenant dans un rythme cadencé. La charge de travail n’est donc pas trop concentrée, ce qui est pour moi plus facile vis-à-vis de mon activité professionnelle.

En quoi cette formation a-t-elle changé votre quotidien professionnel ?

Anne-Lise. Cette formation m’a permis de gagner en efficacité, ce que je souhaitais, mais aussi bien plus que ça. En effet, j’ai pu mettre en place des processus automatisés de traitement et des outils de data visualisation. J’ai également découvert un panel d’outils d’analyses très large, que je peux utiliser pour traiter des problèmes complexes.

Christophe. Elle a très fortement accéléré ma formation à R puisque j’ai pu passer en quelques mois d’un niveau débutant à un niveau plus avancé, en enchaînant avec une formation de développeur – création de packages dans la foulée. Je suis à présent beaucoup plus « fluent » en R, et à même d’encadrer mon équipe, de les orienter voire de leur apporter des solutions techniques.

Salim. Avec mon équipe, depuis mon retour de formation, nous avons adapté le plan d’action pour pouvoir répondre à des problématiques data via quelques acquis de la formation. Par exemple, à l’appui du text mining nous allons développer de la reconnaissance de textes conçus par nos commerciaux pour faciliter les analyses globales. Nous allons également mobiliser du machine learning dans le cadre de sujets de modélisation classique à l’aide de GLM (modèles linéaires). L’idée, c’est d’ici pousser l’analyse et d’aller plus loin en ayant recours à l’algorithme des forêts aléatoires (random forest) notamment.

A la suite de cette expérience, avez-vous des conseils à donner à de potentiels candidats ?

Anne-Lise. La formation propose de découvrir beaucoup de notions et d’outils différents. Il ne faut pas être effrayé par le contenu. Le projet de groupe est un très bon exercice pour mettre en application et s’approprier les enseignements.

Christophe. Si vous n'êtes pas déjà aguerri au langage R, s'y former en amont du cursus avec l’ouvrage R pour la data science. Je pense également qu'il faut commencer le projet le plus tôt possible afin de ne pas être pris par le temps à l'approche de la soutenance.

Salim. Je conseillerais d’abord de prendre un maximum de notes en plus des supports distribués en classe. Il ne faut pas se contenter de ces documents mais d’y ajouter des notes personnelles. Je trouve aussi que c’est très important de s’exercer à l’aide des manuels mis à disposition au cours de la formation. Personnellement, je me laissai un week-end libre pour prendre du recul sur la formation, puis je travaillais en autonomie les dimanches suivants.

Souhaitez-vous ajouter quelque chose ? (Une anecdote, un conseil, des chiffres...)

Anne-Lise. Ce qui est très appréciable, en plus de la qualité des enseignements, c’est l’ambiance et la cohésion de groupe qui se créée au fur et à mesure de la formation avec les autres stagiaires et les formateurs !

Christophe. Le couscous du vendredi, c’est le meilleur de Paris :-) (j'ai fait 6 couscous sur 6 !). Attention : formation qui fait grossir substantiellement, surtout les végétariens !

Salim. Ce que j’ai trouvé intéressant, c’est la relation sociale entre les stagiaires et les intervenants. C’est important d’avoir une cohésion pour s’entraider et c’est aussi appréciable d’avoir une vraie proximité avec les intervenants. A l’ENSAE ENSAI Formation Continue, ils sont à l’écoute et mettent à l’aise sur les possibles incompréhensions de départ, ils sont disponibles pour répondre aux questions pendant et après le cours. Cette proximité nous aide à poser des questions et à échanger – aussi bien sur des questions sur la formation donnée ou nos propres problématiques professionnelles.

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes

Certificat de Data Scientist Data Science : Savoir collecter, décrypter, analyser et prédire à partir de mégadonnées

Langages de programmation

Prérequis

Certification

Gestion des données avec Python Sessions Python

Gestion des données avec R Sessions

Machine learning

Réduction de dimension

Cloud computing

Deep learning

Visualisation

Pipeline de traitements Python

Big Data Processing avec Spark

Droit et éthique de la donnée

Éric Matzner-LoberResponsable du certificat

Fei Gao

Xavier Gendre

Martial Krawier

Vincent Lefieux

Frédéric Logé-Munerel

Qu'est-ce qu'un Data Scientist ?

Le rôle endossé par le Data Scientist et ses principales missions

Les compétences et qualités du métier

Témoignages

Retours d'expérience

Certificat de Data Scientist
Data Science : Savoir collecter, décrypter, analyser et prédire à partir de mégadonnées

Éric Matzner-Lober
Responsable du certificat