Certificat de Data Analyst
Exploiter, analyser des données structurées et réaliser des études statistiques
Prochaine session
28 avril au 1er décembre 2025
Ce certificat de formation continue a pour ambition de permettre à toute personne possédant des notions de base en mathématiques d'acquérir les compétences nécessaires au métier de data analyst (chargé d'études statistiques).
Quels sont les objectifs du certicat de Data Analyst ?
Notre ambition est d’aider les professionnels à mieux traiter, analyser, exploiter les données de plus en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions sur la base d’informations chiffrées fiables.
Une question ? Prenez RDV avec nous !A l'issue de cette formation, le stagiaire saura traiter des données quantitatives et qualitatives. Il saura résumer l’information pertinente et, en fonction du problème posé, mettre en œuvre les méthodes adéquates et en interpréter les résultats.
Le data analyst n’est pas qu’un mathématicien ! En plus d’aimer les chiffres, il doit être capable d’écrire et de présenter les conclusions de ses analyses de la manière la plus claire possible. C’est pourquoi, dans un contexte de demande croissante de données statistiques l’Ensae-Ensai Formation Continue (Cepe) propose une formation certifiante avec des professionnels expérimentés.
À propos de la formation
La formation s’étend sur 21 jours soit 126 heures (hors examen) d’enseignements théoriques et pratiques. En dix mois, les connaissances générales de statistique sont acquises au travers de la compréhension et de l’utilisation des principaux concepts de statistique exploratoire et décisionnelle : statistique descriptive, inférentielle, modélisation et régression (méthode des Moindres Carrés Ordinaires, Analyse de la variance ANOVA, Régression logistique), analyse de données multidimensionnelles, séries temporelles, traitement des données manquantes.
Des ateliers permettent de mettre en pratique les savoirs acquis sur des applications concrètes.
Tous les intervenants sont des spécialistes du domaine, praticiens ou enseignants-chercheurs. Ils ont tous une expérience et un goût spécifique pour la formation continue. Les intuitions, les idées sont privilégiées au formalisme mathématique, même s’il est souhaitable que celui-ci soit parfois détaillé pour permettre une plus grande autonomie des stagiaires. Les cours donnent une grande part aux applications pratiques sur ordinateur, essentiellement sous R.
Les modules du certificat sont progressifs et permettent d'acquérir rapidement des compétences solides et un savoir-faire opérationnel. À raison de 2, 3 ou 4 jours par mois, la formation est compatible avec une activité professionnelle.
Ce cursus de formation est conçu pour fournir une compréhension solide des concepts statistiques et des compétences pratiques en utilisant le langage de programmation R. Il couvre divers domaines de l'analyse de données, de la statistique descriptive à l'analyse factorielle, en passant par la régression linéaire, la classification supervisée et non supervisée, ainsi que le text mining. Voici les principaux aspects abordés tout au long de ce parcours.
Statistique descriptive et manipulation de jeux de données avec le langage R : Ce module couvre les bases de la statistique descriptive, qui comprend des techniques pour résumer et visualiser les données, telles que les mesures de tendance centrale, de dispersion et de forme. Il met également l'accent sur l'utilisation du langage de programmation R pour manipuler et analyser des jeux de données, en utilisant des bibliothèques populaires telles que dplyr et ggplot2.
Statistique inférentielle : La statistique inférentielle concerne l'inférence et la prise de décisions sur la base d'échantillons de données. Ce module explore les concepts de base tels que l'estimation des paramètres, les intervalles de confiance et les tests d'hypothèses. Il comprend également des techniques avancées comme l'analyse de la variance (ANOVA) et les tests non paramétriques.
Analyse factorielle (ACP, AFC, ACM) : L'analyse factorielle est une technique statistique utilisée pour explorer la structure des données et identifier les relations sous-jacentes entre les variables. Ce module présente plusieurs méthodes d'analyse factorielle, notamment l'analyse en composantes principales (ACP), l'analyse factorielle confirmatoire (AFC) et l'analyse des correspondances multiples (ACM).
Régression linéaire : La régression linéaire est une technique permettant de modéliser et de prédire les relations linéaires entre une variable dépendante et une ou plusieurs variables indépendantes. Ce module couvre les concepts fondamentaux de la régression linéaire simple et multiple, y compris l'estimation des coefficients, l'évaluation des modèles et l'interprétation des résultats.
Classification supervisée : La classification supervisée est une méthode d'apprentissage automatique qui consiste à prédire des catégories ou des classes pour de nouvelles observations, en se basant sur des exemples d'entraînement avec des étiquettes. Ce module explore des algorithmes de classification populaires tels que les arbres de décision, les forêts aléatoires et les machines à vecteurs de support (SVM).
Traitement des valeurs manquantes : Ce module se concentre sur les méthodes de gestion des valeurs manquantes dans les données, car les valeurs manquantes peuvent avoir un impact significatif sur les analyses statistiques. Il examine différentes approches pour gérer les valeurs manquantes, y compris l'imputation et l'élimination des données manquantes. L'atelier pratique permet aux participants de mettre en pratique ces techniques.
Introduction au text mining : Le text mining, également appelé fouille de textes, est une discipline qui se concentre sur l'extraction de connaissances et d'informations à partir de textes non structurés. Ce module fournit une introduction
Vous trouverez le programme détaillé de ces modules ci-après.
- Manipuler des jeux à de données à l’aide du logiciel R
- Décrire des jeux de données
Manipulation de données sous R
- Les objets classiques (data frame, liste, etc.)
- Importation de données sous différents formats
- Concaténation de données
Notions de base de statistique univariée
- Individu, échantillon, population, variables quantitatives et qualitatives
- Indicateurs de position (moyenne, médiane, quantiles, etc.) et de dispersion (variance, écart-type, etc.) pour une variable quantitative
- Représentation de la distribution d’une variable (histogramme, diagramme en barres, etc.)
Notions de base de statistique bivariée
- Tableaux croisés entre 2 variables
- Indicateurs de liaison entre variables (statistique du khi-deux, coefficient de corrélation linéaire, etc.)
S2. Statistique inférentielle (3 jours)
- Appréhender les concepts d’inférence, d’échantillonnage et d’estimation.
- Déterminer des intervalles de confiance.
- Réaliser un test statistique.
Notions de probabilités
- Variables aléatoires (concept, espérance et variance, indépendance, etc.).
- Principales lois de probabilité.
- Loi forte des grands nombres (LFGN) et théorème de la limite centrale (TCL).
Intervalles de confiance
- Principes (niveau de confiance, etc.).
- Intervalles de confiance usuels : proportion, moyenne, variance.
Test statistique
- Principes (erreurs de 1ère et 2e espèce, niveau de test, p-valeur, etc.).
- Tests statistiques usuels : proportion, moyenne, variance.
- Tests de comparaison entre deux échantillons.
- Test d’adéquation à une loi (khi-deux, Kolmogorov-Smirnov).
- Mettre en œuvre des méthodes d’analyse factorielle (ACP, AFC, ACM)
- Analyser les sorties d’une ACP, AFC ou ACM afin d’en tirer des informations utiles aux métiers
Analyse en composantes principales (ACP)
- Principes de l’ACP (réduction de dimension).
- Interprétation des résultats (cercle des corrélations, projection des individus, etc.).
Analyse factorielle des correspondances (AFC)
- Profils-lignes et profils-colonnes.
- Distance du khi-deux.
Analyse des correspondances multiples (ACM)
- Tableau disjonctif complet et tableau de Burt.
- Principes de l’ACM.
- Interprétation des résultats.
Atelier (1 journée)
- A partir d’un jeu de données savoir déterminer les analyses à effectuer
- Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
- Conduire une analyse de données de bout en bout
S4. Régression linéaire (3 jours)
- Construire un modèle de régression linéaire pour expliquer et/ou prévoir des phénomènes.
- Analyser l’influence de facteurs qualitatifs dans un modèle de régression linéaire.
Régression linéaire simple
- Méthode des moindres carrés
- Utilisation du modèle en prévision
Régression linéaire multiple
- Modèle et estimation
- Validation du modèle (significativité des paramètres, résidus, données atypiques et/ou influentes, etc.)
- Choix de variables (critères et algorithmes)
- Cas des variables explicatives qualitatives
S5. Classification supervisée (3 jours)
- Comprendre les principes de la classification supervisée (également appelée discrimination).
- Mettre en œuvre les méthodes de référence pour la classification supervisée.
Principes de la classification supervisée
Régression logistique
- Présentation du modèle
- Estimation et tests des paramètres
- Sélection de variables
Arbres
- Arbres de décision (et de régression) CART
- Introduction aux random forests
- Savoir élaborer une typologie d’individus
- Savoir caractériser les groupes obtenus
- Savoir traiter des valeurs manquantes d’un tableau de données
Rappels sur les notions de distance, de variance et d’inertie
Méthodes de partitionnement (K-means)
Classification ascendante hiérarchique
Caractérisation des groupes obtenus
Traitement des valeurs manquantes
- Identifier les différentes sources de valeurs manquantes
- Imputation simple
- Imputation multiple
Atelier (1 journée)
- A partir d’un jeu de données savoir déterminer les analyses à effectuer
- Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
- Conduire un analyse de données de bout en bout
- Connaître les prétraitement à effectuer pour mener à bien une analyse textuelle
Importation de textes avec R
Création du corpus et du vocabulaire
Nettoyage des données (accents, valeurs manquantes, casses…)
Lemmatisation ou racinisation ?
Analyses graphiques
Atelier (1 journée)
- A partir d’un jeu de données savoir déterminer les analyses à effectuer
- Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
- Conduire un analyse de données de bout en bout
Les données deviennent la nouvelle matière première des entreprises
Craig Mundie, Conseiller principal auprès du PDG de Microsoft
Quels que soient le secteur d’activité, la taille et le statut de l’entreprise, de l’institut ou de l’administration, nul ne peut ignorer les masses de données disponibles et chacun se doit aujourd’hui de considérer toutes les opportunités offertes par les données.
La première d’entre elles réside dans le suivi opérationnel des processus internes. Des données de qualité, complètes et partagées permettent d’accroitre la connaissance interne, et ainsi de faciliter le pilotage par les décideurs. Le tableau de bord est l’outil usuellement retenu. Pour élaborer de tels tableaux, il faut évaluer les données disponibles, les corriger et les compléter si besoin, puis extraire ces données pour en fournir ensuite une synthèse explicite et exploitable. La capacité à mener des analyses descriptives classiques, des analyses exploratoires plus complexes, voire à mettre en œuvre des modèles reliant ces données, est un prérequis indispensable pour assurer la qualité de telles synthèses.
Une autre opportunité réside dans ce que l’on nomme communément l’open data, c’est-à-dire la mise à disposition de données brutes ou synthétisées à l’extérieur de l’entreprise ou de l’établissement qui les a produites. Ces « données ouvertes » permettent de générer des écosystèmes propices au traitement de problématiques métier par un réseau d’acteurs externes, des entreprises (parmi lesquelles des startups) mais également des académiques. Là-encore, les organisations doivent appréhender au mieux les données et informations mises à disposition, au risque de perdre en crédibilité.
Ces démarches autour de la donnée nécessitent une mise en valeur éclairée du patrimoine à disposition, et une réflexion quant à la collecte de nouvelles données, et sa mise en œuvre le cas échéant.
Le rôle endossé par le Data Analyst et ses principales missions
L’univers du big data a généré de nouveaux métiers, parmi lesquels les Data Engineers à même de déployer des solutions techniques pour le stockage, les calculs et la mise en production d’outils, et les Data Scientists dépositaires de connaissances pointues sur la manipulation et l’extraction d’information à l’aide du machine learning. Les Data Analysts constituent la plus grande masse des salariés impactés par l’analyse de données, leur défi est d’hybrider des traitements statistiques avec les finalités métier.
La fonction du Data Analyst consiste à ordonner les données des organisations et à en collecter de nouvelles. En convertissant ces masses de données, parfois non-structurées, en enseignements exploitables le Data Analyst facilite le partage d’informations et le pilotage des organisations. Ses travaux offrent ainsi un levier et un relais de croissance à l’entreprise qui l’emploie.
Ses principales missions sont :
- Collecter et extraire des données
- Tester et contrôler la qualité des données
- Décrire les données de manière synthétique, via des tableaux, des graphiques et des rapports (data visualisation)
- Mener des analyses exploratoires de données (data mining)
- Mettre en œuvre des modélisations statistiques simples pour appréhender des données qualitatives ou quantitatives
Les compétences et qualités du métier
Le Data Analyst doit posséder des compétences issues de la statistique et de l’informatique pour mener à bien ces différentes tâches, sans omettre ses connaissances métier qui lui permettent de produire des interprétations éclairantes.
Afin de manipuler des jeux de données, les croiser, les nettoyer, il doit pouvoir invoquer un langage informatique spécialisé tel que R ou Python, et utiliser les bibliothèques adéquates.
Pour décrire/explorer ses jeux de données, le Data Analyst doit pouvoir s’appuyer non seulement sur la statistique descriptive classique mais aussi l’analyse factorielle (ACP, ACM) et le clustering (CAH, K-means). Moins experts en algorithmique que les Data Scientists, les Data Analysts sauront mettre en œuvre des modélisations simples (régression linéaire, régression logistique), très souvent suffisantes pour des analyses éclairantes. Et si la complexité de la problématique requiert des méthodes avancées, ils pourront dialoguer avec des experts du machine learning, et utiliser des codes mis à disposition.
Éric Matzner-Lober
Responsable du certificat
Professeur de Statistique à l’Université de Rennes 2 et membre affilié au laboratoire National de Los Alamos, il a rédigé plusieurs livres sur R et les méthodes de régression. Il participe activement à des programmes de recherche en interaction avec des entreprises comme dans le project Smart Electric Lyon.
Magalie Houée-Bigot
Docteure en sciences économiques de l'Université Paris-Dauphine, elle est actuellement ingénieur à Agrocampus Ouest. Elle enseigne la statistique, l'analyse de données, et développe des packages R en lien avec ses thématiques de recherche. Son activité de recherche porte sur la modélisation en grande dimension et les méthodes de machine learning.Nicolas Jégou
Nicolas Jégou est docteur en Mathématiques Appliquées et il est actuellement Maître de Conférences à l’Université Rennes 2. Ses activités de recherche portent sur la régression non paramétrique. Il travaille en particulier sur les méthodes de régression sous contraintes de forme et les modèles additifs. Il a également collaboré à la rédaction de plusieurs ouvrages sur le logiciel R.Vincent Lefieux
Vincent Lefieux est diplômé de l’ENSAI et titulaire d’un doctorat en Statistique (Université Rennes 2). Après avoir occupé des postes d’ingénieur chercheur à EDF R&D puis RTE R&D, il dirige actuellement le pôle Data science à RTE. En parallèle il a donné de nombreux cours dans des écoles d’ingénieurs (Centrale Paris-ESSEC, ENSAE, ENSAI, ENPC, ENSTA) et a été maître de conférence associé (PAST) à l’UPMC de 2010 à 2015.A la fin du parcours de formation, les stagiaires sont soumis à une évaluation portant sur l'ensemble des modules.
La validation du certificat est soumise à la réussite de cette évaluation ainsi qu’à la présence obligatoire à l'ensemble des cours du certificat.
En cas de réussite, le candidat se voit décerner le Certificat de Data Analyst du Genes.
En vous inscrivant à ce certificat, vous bénéficiez d'une réduction de 20% sur l'ensemble de nos formations catalogue durant l'année qui suit l'obtention de votre diplôme.
Adriana Meyer, économiste spécialisée dans l’analyse risque pays sur différentes régions du monde au sein de BPI FRANCE, Alumni de la promotion CDA12 (2023) et Olivier Riss, chargé d’études statistiques dans la captive de financement d'un constructeur automobile, (promotion CDA10 2022), nous explique ce que leur ont apporté le Certificat de Data Analyst. Laissons leur la parole.
Pouvez-vous vous présenter en quelques mots ?
Adriana. J’ai une formation initiale en management d’entreprises et un master en économie et gestion avec une spécialisation en finances. Je travaille depuis 2014 en tant qu’économiste spécialisée dans les économies latino-américaines dans un premier temps et depuis 2017, mon portefeuille de pays s’est élargi vers l’Afrique de l’Est et l’Asie du Sud.
Olivier. Je travaille dans le service Business Intelligence de la direction commerciale et marketing de mon entreprise. J’ai une formation initiale en marketing vente en école supérieure de commerce. J’ai toujours été hautement intéressé par l’utilisation des données pour aider à prendre des décisions.
Pour quelle raison avez-vous décidé de vous former à la Data Analyse ?
Adriana. Au-delà de mon travail quotidien d’analyse des risques économiques, financiers et politiques des divers pays dans le monde, j’ai aussi la charge du développement d’une grille d’analyse du risque climat visant à évaluer les risques physiques et de transition de 160 pays (développés et émergents). Dans le cadre de mes nouvelles fonctions, je cherchais une formation pouvant m’aider à parfaire mes connaissances initiales notamment en matière de traitement et d’exploitation des données, ainsi que de découvrir les techniques de modélisation et de traitement des données manquantes.
Olivier. Je souhaitais aller au-delà de la Data visualisation et avoir de meilleurs outils pour expliquer des résultats. Je ne connaissais pas les bases de modélisation et de régression, mais cela m’attirait ! J’avais envie de prendre du temps pour « retourner à l’école », me remettre dans la théorie pour bien comprendre les concepts à manipuler par la suite.
Pourquoi avoir choisi l’Ensae-Ensai Formation Continue ?
Adriana. Pour l’excellence de l’enseignement dispensé, en phase avec le renom de ces deux grandes écoles, dont la formation est certes exigeante, mais correspond parfaitement aux attentes actuelles du marché.
Olivier. Le rythme de quelques jours par mois était parfait pour continuer mon activité professionnelle sans difficulté. Je connaissais la réputation de l’établissement. J’ai été séduit par la présentation du programme sur le site Internet, notamment les vidéos très explicites : je m’y projetais bien ! En plus, c’était proche de mon domicile. Le budget était raisonnable : j’ai pu financer cette formation avec mon CPF et un complément de mon employeur.
En quoi cette formation a-t-elle changé votre quotidien professionnel ?
Adriana. La (ré)découverte du logiciel de statistique R m’a permis d’être plus efficace dans le traitement des données (téléchargement, tri, sélection, nettoyage) pouvant parfois avoir un volume assez conséquent. J’ai aussi acquis de nouvelles connaissances et beaucoup plus d’assurance dans les techniques de modélisation que je compte pouvoir mettre en œuvre dans les futurs projets de mon entreprise.
Olivier. Elle m’a clairement permis de prendre de la hauteur sur mon processus de traitement de données : je sépare bien mieux les étapes de préparation, d’analyse et de restitution. J’appréhende mieux les difficultés en cherchant à comprendre ce qui ne fonctionne pas comme prévu ; mes collègues me trouvent bien plus pédagogue quand je dois leur expliquer un traitement.
Je peux désormais mieux travailler avec les Data Scientists quand ils proposent de construire des algorithmes de profilage.
A la suite de cette expérience, avez-vous des conseils à donner à de potentiels candidats ?
Adriana. Pour ceux qui ne sont pas à l’aise avec R, il faudra passer quelques soirées à bosser !!! Mais l’équipe de formateurs est excellente et toujours à l’écoute, il ne faut surtout pas hésiter à demander de l’aide si nécessaire. Le mélange entre théorie et pratique est par ailleurs assez équilibré et la qualité de l’enseignement est très appréciable.
Olivier. Le "retour à l’école" implique une présence différente que celle qu’on pratique en entreprise : il faut être à l’écoute, capable de prendre des notes tout en appliquant les scripts sous R studio. J’ai mis plusieurs jours à trouver la bonne organisation (Rmarkdown + sauvegarde sur un Cloud perso de l’ensemble des documents). Il faut régulièrement trier ses documents afin de gagner en efficacité lors de l’examen final (et ensuite en entreprise).
J’ai dû aussi m’imposer une discipline : oublier son tél portable et ses e-mails du travail, se concentrer à 100 % au présentiel en classe, c’est une vraie chance, il faut en profiter.
Souhaitez-vous ajouter quelque chose ? (Une anecdote, un conseil, des chiffres...)
Adriana. Oui, il y a eu une très belle cohésion de groupe, de l’entraide très appréciable ! Pour l’anecdote, je pense pouvoir citer le fameux couscous du vendredi…
Olivier. J’ai vraiment apprécié cette formation : je fais tout mon possible pour la prolonger par des modules complémentaires (Analyse des séries temporelles avec R par exemple). Je regarde aussi pour compléter cette formation par son pendant en Python : j’ai l’impression que les recruteurs sont plus demandeurs de compétence avec ce logiciel.