Certificat de Data Analyst 
Formation professionnelle : exploiter, analyser des données structurées et réaliser des études statistiques

 
Certificat de Data Analyst
 21 jours (126 h)     8 100     Présentiel    CPF éligible
  Prochaine session
1er octobre 2026 au 31 mai 2027

  Prochaines sessions et informations pratiques

 Vous apprendrez à...


  • Maîtriser les bases de la statistique descriptive et de l’analyse exploratoire
  • Préparer, nettoyer et structurer des données pour l’analyse
  • Mettre en œuvre les outils de la statistique inférentielle (estimation, tests)
  • Construire et interpréter des modèles de régression et de classification
  • Segmenter et caractériser des populations par des méthodes non supervisées
  • Analyser et interpréter des séries temporelles
  • Produire des visualisations et synthèses exploitables pour la décision
  • Conduire des analyses complètes de bout en bout avec le langage R

Programme

Le certificat de Data Analyst est structuré autour des fondamentaux de l’analyse statistique des données, avec une progression allant de l’exploration descriptive à la modélisation et à l’interprétation des résultats.

Après une introduction aux méthodes de statistique descriptive et exploratoire, le programme aborde les outils de statistique inférentielle, ainsi que les principales techniques de régression et de classification utilisées pour analyser et expliquer des phénomènes observés dans les données.

Les participants étudient ensuite les méthodes d’analyse des données et de segmentation par classification non supervisée, avant d’aborder l’analyse des séries temporelles. L’ensemble des méthodes est mis en œuvre de façon appliquée à l’aide du langage R, avec un accent particulier sur la visualisation, la synthèse et la restitution des résultats pour éclairer la prise de décision.

Ces compétences constituent également un socle indispensable pour dialoguer efficacement avec des équipes data science ou IA et interpréter leurs résultats dans un contexte métier.

   Voir le programme détaillé des modules


Prérequis

Public visé & prérequis

Cette formation est destinée aux personnes souhaitant développer des compétences en analyse statistique et en exploitation des données.

Elle est ouverte aux candidats disposant de connaissances en mathématiques équivalentes à un baccalauréat scientifique ou à un baccalauréat avec spécialité mathématiques, et justifiant d’une expérience professionnelle d’au moins 3 ans. Une appétence pour l’analyse de données et les raisonnements quantitatifs est attendue afin de tirer pleinement profit du programme.


Certification

Certification

Outre le suivi des modules obligatoires dans leur intégralité, le processus de certification est organisé en deux phases : la réussite au test de certification et la soutenance d'un projet réalisé tout au long du cursus.

Ces deux phases validées, le participant se voit décerner un Certificat de Data Analyst du Groupe ENSAE-ENSAI.

Pourquoi choisir ce certificat ?


  • Un parcours intense axé sur les statistiques appliquées
    La formation couvre les fondamentaux et méthodes clés de statistique descriptive, inférentielle, régression, classification et analyse exploratoire, directement applicables en entreprise.
  • Un apprentissage pratique avec R
    L’intégralité des analyses est mise en pratique avec le langage de programmation R et ses bibliothèques (dplyr, ggplot2, etc.), garantissant une montée en compétences réellement opérationnelle.
  • Des modules progressifs et cohérents
    Chaque module s’appuie sur le précédent pour construire une maîtrise solide de l’analyse de données, depuis l’exploration et la préparation des données jusqu’à la modélisation et l’interprétation des résultats.
  • Des applications concrètes sur des données réelles
    Les ateliers pratiques permettent de manipuler des jeux de données réalistes, d’identifier et corriger leurs défauts (valeurs manquantes, incohérences…), et de produire des analyses exploitables.
  • Une approche complète de l’analyse de données
    Le certificat couvre l’ensemble de la chaîne de valeur du data analyst : compréhension du problème, préparation des données, modélisation, visualisation et restitution des résultats.
  • Des intervenants experts du domaine
    Les cours sont assurés par des enseignants-chercheurs et des praticiens reconnus, qui partagent des méthodes éprouvées et des retours d’expérience issus de projets réels en entreprise.
  • Compatible avec une activité professionnelle
    Le rythme de la formation est conçu pour permettre de se former tout en poursuivant une activité professionnelle à temps plein, sans rupture avec les contraintes du quotidien.
  • Un certificat reconnu et finançable
    Le Certificat de Data Analyst est enregistré au Répertoire Spécifique et éligible au CPF, avec des possibilités de financement adaptées à votre situation.

  Questions fréquentes

Oui. Le certificat est conçu pour des professionnels en activité, avec un rythme compatible avec une activité à temps plein.
Le certificat s’adresse aux personnes souhaitant acquérir des compétences solides en analyse statistique et en exploitation des données, afin de produire des analyses fiables et exploitables dans un contexte professionnel.
La formation est ouverte aux candidats disposant de connaissances en mathématiques équivalentes à un baccalauréat scientifique ou à un baccalauréat avec spécialité mathématiques, et justifiant d’une expérience professionnelle d’au moins 3 ans.
Le certificat représente 21 journées de formation de 6 heures (126 heures au total) et se déroule sur une période d'environ 7 mois.
La formation se déroule en présentiel à Issy-les-Moulineaux, dans les locaux de l'ENSAE-ENSAI Formation Continue.
Le programme couvre les fondamentaux de la statistique descriptive et inférentielle, les méthodes de régression et de classification (supervisée et non supervisée), le traitement des données réelles (valeurs manquantes, préparation des jeux de données) ainsi qu'une introduction à l’analyse des séries temporelles.
Vous apprendrez à préparer et analyser des données, appliquer des méthodes statistiques pour modéliser des phénomènes, interpréter les résultats, produire des visualisations pertinentes et restituer des analyses exploitables pour la prise de décision.
Les travaux pratiques sont réalisés principalement avec le langage R et ses bibliothèques dédiées à la manipulation des données, à l’analyse statistique et à la visualisation.
Le certificat de Data Analyst se concentre sur les méthodes statistiques et l’analyse des données. Il n’a pas vocation à former au deep learning ou à l’IA générative au sens algorithmique du terme. En revanche, des outils d’IA générative (LLM) sont utilisés de façon ponctuelle au cours du cursus comme assistants de travail — pour explorer des jeux de données, générer du code, documenter des analyses ou automatiser certaines tâches — reflétant leur usage réel dans la pratique professionnelle.
Oui. En plus de tests de contrôle continu, les participants soutiennent un projet commencé pendant la formation et achevé deux mois après la fin des cours. La validation dépend de la réussite aux épreuves et de la présence obligatoire aux cours.
En cas de réussite, il est délivré un Certificat de Data Analyst du Groupe ENSAE-ENSAI.
Le prix du cursus est de 8 100 € (non soumis à la TVA).
Oui. Le Certificat de Data Analyst est inscrit au Répertoire Spécifique et éligible au CPF, sous réserve des conditions en vigueur.


Le certificat de Data Analyst est structuré autour de l’analyse statistique des données, de la modélisation et de la mise en pratique opérationnelle sous R. Il combine les fondements de la statistique descriptive et inférentielle avec les principales méthodes de régression, de classification et d’analyse exploratoire. Les modules du certificat sont complétés par des ateliers pratiques permettant de conduire des analyses de données de bout en bout. L’ensemble s’étend sur une durée d’environ 6 mois. En voici le détail.


Langage R

Initiation au langage R — 2 jours

Ce module introduit le langage R et son écosystème pour l’analyse de données. Il couvre les principaux types d’objets (vecteurs, data frames, listes), l’importation de données depuis différents formats et la manipulation des jeux de données. Les participants apprendront à écrire des scripts reproductibles, à explorer des jeux de données et à produire leurs premières visualisations. L’objectif est d’acquérir une autonomie opérationnelle dans l’environnement R pour la suite du cursus.



Statistiques descriptives

Statistiques descriptives et manipulation de données R — 2 jours

Ce module traite la description quantitative et qualitative des jeux de données. Il couvre les indicateurs de position (moyenne, médiane, quantiles) et de dispersion, ainsi que les représentations graphiques (histogrammes, diagrammes, nuages de points). Les relations entre variables sont analysées via tableaux croisés, corrélations et indicateurs de liaison. L’ensemble est mis en œuvre sous R pour explorer, nettoyer et préparer les données avant modélisation.



Statistique inférentielle

Statistique inférentielle — 3 jours

Ce module introduit les principes de l’inférence statistique à partir d’échantillons. Il couvre les lois de probabilité, le théorème central limite et les mécanismes d’estimation. Les participants apprendront à construire des intervalles de confiance et à réaliser des tests statistiques (comparaison de moyennes, proportions, tests d’adéquation). Ces outils permettent de quantifier l’incertitude et de prendre des décisions fondées sur les données.



Classification non supervisée

Analyse des données et classification non supervisée — 3 jours

Ce module est dédié à l’analyse exploratoire et à la construction de typologies. Il aborde les notions de distance, d’inertie et de variance, puis les principales méthodes de clustering telles que K-means et la classification hiérarchique. Les participants apprendront à interpréter et caractériser les groupes obtenus afin d’en tirer des enseignements métier et des segments opérationnels.



Régression linéaire

Régression linéaire et analyse de la variance — 3 jours

Ce module couvre la modélisation explicative et prédictive par régression. Il traite la régression linéaire simple et multiple, la validation des modèles (significativité, résidus, données atypiques) et le choix de variables. L’analyse de la variance (ANOVA) permet d’étudier l’impact de facteurs qualitatifs. Ces outils sont essentiels pour comprendre l’influence des variables et réaliser des prévisions fiables.



Classification supervisée

Classification supervisée — 3 jours

Ce module présente les méthodes de classification prédictive lorsque la variable cible est connue. Il couvre la régression logistique, les arbres de décision et une introduction aux random forests. Les participants apprendront à entraîner, évaluer et comparer des modèles de classification afin de produire des scores et des règles de décision exploitables en contexte métier.



Valeurs manquantes

Traitement des valeurs manquantes — 1 jour

Ce module aborde un enjeu central des données réelles : les valeurs manquantes. Il couvre leurs différentes origines, les méthodes d’imputation simple et d’imputation multiple, ainsi que leurs impacts sur l’analyse et la modélisation. Les participants apprendront à choisir des stratégies adaptées afin de préserver la qualité statistique et la robustesse des résultats.



Séries temporelles

Introduction aux séries temporelles — 1 jour

Ce module introduit l’analyse des séries temporelles. Il couvre les représentations graphiques, la décomposition en tendance et saisonnalité, ainsi que les modèles additifs et multiplicatifs. Les participants apprendront à décrire, désaisonnaliser et interpréter des séries chronologiques afin de préparer des analyses et des prévisions.



Atelier pratique

Atelier pratique — 3 jours

Cet atelier met en pratique l’ensemble des méthodes du certificat à partir de jeux de données réels. Les participants conduisent une analyse de données de bout en bout : exploration, nettoyage, modélisation, interprétation et restitution. L’accent est mis sur la communication des résultats et la production de livrables clairs et exploitables par des décideurs.


Qu'est-ce qu'un Data Analyst ?

Craig Mundie

Les données deviennent la nouvelle matière première des entreprises

Craig Mundie, Conseiller principal auprès du PDG de Microsoft


Quels que soient le secteur d’activité, la taille et le statut de l’entreprise, de l’institut ou de l’administration, nul ne peut ignorer les masses de données disponibles et chacun se doit aujourd’hui de considérer toutes les opportunités offertes par les données.

La première d’entre elles réside dans le suivi opérationnel des processus internes. Des données de qualité, complètes et partagées permettent d’accroitre la connaissance interne, et ainsi de faciliter le pilotage par les décideurs. Le tableau de bord est l’outil usuellement retenu. Pour élaborer de tels tableaux, il faut évaluer les données disponibles, les corriger et les compléter si besoin, puis extraire ces données pour en fournir ensuite une synthèse explicite et exploitable. La capacité à mener des analyses descriptives classiques, des analyses exploratoires plus complexes, voire à mettre en œuvre des modèles reliant ces données, est un prérequis indispensable pour assurer la qualité de telles synthèses.

Une autre opportunité réside dans ce que l’on nomme communément l’open data, c’est-à-dire la mise à disposition de données brutes ou synthétisées à l’extérieur de l’entreprise ou de l’établissement qui les a produites. Ces « données ouvertes » permettent de générer des écosystèmes propices au traitement de problématiques métier par un réseau d’acteurs externes, des entreprises (parmi lesquelles des startups) mais également des académiques. Là-encore, les organisations doivent appréhender au mieux les données et informations mises à disposition, au risque de perdre en crédibilité.

Ces démarches autour de la donnée nécessitent une mise en valeur éclairée du patrimoine à disposition, et une réflexion quant à la collecte de nouvelles données, et sa mise en œuvre le cas échéant.

Le rôle endossé par le Data Analyst et ses principales missions

L’univers du big data a généré de nouveaux métiers, parmi lesquels les Data Engineers à même de déployer des solutions techniques pour le stockage, les calculs et la mise en production d’outils, et les Data Scientists dépositaires de connaissances pointues sur la manipulation et l’extraction d’information à l’aide du machine learning. Les Data Analysts constituent la plus grande masse des salariés impactés par l’analyse de données, leur défi est d’hybrider des traitements statistiques avec les finalités métier.

La fonction du Data Analyst consiste à ordonner les données des organisations et à en collecter de nouvelles. En convertissant ces masses de données, parfois non-structurées, en enseignements exploitables le Data Analyst facilite le partage d’informations et le pilotage des organisations. Ses travaux offrent ainsi un levier et un relais de croissance à l’entreprise qui l’emploie.

Ses principales missions sont :

  • Collecter et extraire des données
  • Tester et contrôler la qualité des données
  • Décrire les données de manière synthétique, via des tableaux, des graphiques et des rapports (data visualisation)
  • Mener des analyses exploratoires de données (data mining)
  • Mettre en œuvre des modélisations statistiques simples pour appréhender des données qualitatives ou quantitatives

Les compétences et qualités du métier

Le Data Analyst doit posséder des compétences issues de la statistique et de l’informatique pour mener à bien ces différentes tâches, sans omettre ses connaissances métier qui lui permettent de produire des interprétations éclairantes.

Afin de manipuler des jeux de données, les croiser, les nettoyer, il doit pouvoir invoquer un langage informatique spécialisé tel que R ou Python, et utiliser les bibliothèques adéquates.

Pour décrire/explorer ses jeux de données, le Data Analyst doit pouvoir s’appuyer non seulement sur la statistique descriptive classique mais aussi l’analyse factorielle (ACP, ACM) et le clustering (CAH, K-means). Moins experts en algorithmique que les Data Scientists, les Data Analysts sauront mettre en œuvre des modélisations simples (régression linéaire, régression logistique), très souvent suffisantes pour des analyses éclairantes. Et si la complexité de la problématique requiert des méthodes avancées, ils pourront dialoguer avec des experts du machine learning, et utiliser des codes mis à disposition.





Éric Matzner-Lober<br><small>Responsable du certificat</small>

Éric Matzner-Lober
Responsable du certificat

Professeur des universités, Éric est le responsable pédagogique et scientifique de l’Ensae-Ensai Formation Continue (Cepe). Il a rédigé en collaboration de nombreux ouvrages scientifiques alliant théorie et applications. Il effectue sa recherche au Centre de Recherche en Economie et Statistique (CREST) et est régulièrement invité au Laboratoire National de Los Alamos.

Magalie Houée-Bigot

Magalie Houée-Bigot

Docteure en sciences économiques de l'Université Paris-Dauphine, elle est actuellement ingénieur à Agrocampus Ouest. Elle enseigne la statistique, l'analyse de données, et développe des packages R en lien avec ses thématiques de recherche. Son activité de recherche porte sur la modélisation en grande dimension et les méthodes de machine learning.

Nicolas Jégou

Nicolas Jégou

Nicolas Jégou est docteur en Mathématiques Appliquées et il est actuellement Maître de Conférences à l’Université Rennes 2. Ses activités de recherche portent sur la régression non paramétrique. Il travaille en particulier sur les méthodes de régression sous contraintes de forme et les modèles additifs. Il a également collaboré à la rédaction de plusieurs ouvrages sur le logiciel R.

Vincent Lefieux

Vincent Lefieux

Vincent Lefieux est diplômé de l’ENSAI et titulaire d’un doctorat en Statistique (Université Rennes 2). Après avoir occupé des postes d’ingénieur chercheur à EDF R&D puis RTE R&D, il dirige actuellement le pôle Data science à RTE. En parallèle il a donné de nombreux cours dans des écoles d’ingénieurs (Centrale Paris-ESSEC, ENSAE, ENSAI, ENPC, ENSTA) et a été maître de conférence associé (PAST) à l’UPMC de 2010 à 2015.

Adriana Meyer Olivier Riss

Adriana Meyer, économiste spécialisée dans l’analyse risque pays sur différentes régions du monde au sein de BPI FRANCE, Alumni de la promotion CDA12 (2023) et Olivier Riss, chargé d’études statistiques dans la captive de financement d'un constructeur automobile, (promotion CDA10 2022), nous explique ce que leur ont apporté le Certificat de Data Analyst. Laissons leur la parole.

Pouvez-vous vous présenter en quelques mots ?

Adriana. J’ai une formation initiale en management d’entreprises et un master en économie et gestion avec une spécialisation en finances. Je travaille depuis 2014 en tant qu’économiste spécialisée dans les économies latino-américaines dans un premier temps et depuis 2017, mon portefeuille de pays s’est élargi vers l’Afrique de l’Est et l’Asie du Sud.

Olivier. Je travaille dans le service Business Intelligence de la direction commerciale et marketing de mon entreprise. J’ai une formation initiale en marketing vente en école supérieure de commerce. J’ai toujours été hautement intéressé par l’utilisation des données pour aider à prendre des décisions.

Pour quelle raison avez-vous décidé de vous former à la Data Analyse ?

Adriana. Au-delà de mon travail quotidien d’analyse des risques économiques, financiers et politiques des divers pays dans le monde, j’ai aussi la charge du développement d’une grille d’analyse du risque climat visant à évaluer les risques physiques et de transition de 160 pays (développés et émergents). Dans le cadre de mes nouvelles fonctions, je cherchais une formation pouvant m’aider à parfaire mes connaissances initiales notamment en matière de traitement et d’exploitation des données, ainsi que de découvrir les techniques de modélisation et de traitement des données manquantes.

Olivier. Je souhaitais aller au-delà de la Data visualisation et avoir de meilleurs outils pour expliquer des résultats. Je ne connaissais pas les bases de modélisation et de régression, mais cela m’attirait ! J’avais envie de prendre du temps pour « retourner à l’école », me remettre dans la théorie pour bien comprendre les concepts à manipuler par la suite.

Pourquoi avoir choisi l’ENSAE-ENSAI Formation Continue ?

Adriana. Pour l’excellence de l’enseignement dispensé, en phase avec le renom de ces deux grandes écoles, dont la formation est certes exigeante, mais correspond parfaitement aux attentes actuelles du marché.

Olivier. Le rythme de quelques jours par mois était parfait pour continuer mon activité professionnelle sans difficulté. Je connaissais la réputation de l’établissement. J’ai été séduit par la présentation du programme sur le site Internet, notamment les vidéos très explicites : je m’y projetais bien ! En plus, c’était proche de mon domicile. Le budget était raisonnable : j’ai pu financer cette formation avec mon CPF et un complément de mon employeur.

En quoi cette formation a-t-elle changé votre quotidien professionnel ?

Adriana. La (ré)découverte du logiciel de statistique R m’a permis d’être plus efficace dans le traitement des données (téléchargement, tri, sélection, nettoyage) pouvant parfois avoir un volume assez conséquent. J’ai aussi acquis de nouvelles connaissances et beaucoup plus d’assurance dans les techniques de modélisation que je compte pouvoir mettre en œuvre dans les futurs projets de mon entreprise.

Olivier. Elle m’a clairement permis de prendre de la hauteur sur mon processus de traitement de données : je sépare bien mieux les étapes de préparation, d’analyse et de restitution. J’appréhende mieux les difficultés en cherchant à comprendre ce qui ne fonctionne pas comme prévu ; mes collègues me trouvent bien plus pédagogue quand je dois leur expliquer un traitement.

Je peux désormais mieux travailler avec les Data Scientists quand ils proposent de construire des algorithmes de profilage.

A la suite de cette expérience, avez-vous des conseils à donner à de potentiels candidats ?

Adriana. Pour ceux qui ne sont pas à l’aise avec R, il faudra passer quelques soirées à bosser !!! Mais l’équipe de formateurs est excellente et toujours à l’écoute, il ne faut surtout pas hésiter à demander de l’aide si nécessaire. Le mélange entre théorie et pratique est par ailleurs assez équilibré et la qualité de l’enseignement est très appréciable.

Olivier. Le "retour à l’école" implique une présence différente que celle qu’on pratique en entreprise : il faut être à l’écoute, capable de prendre des notes tout en appliquant les scripts sous R studio. J’ai mis plusieurs jours à trouver la bonne organisation (Rmarkdown + sauvegarde sur un Cloud perso de l’ensemble des documents). Il faut régulièrement trier ses documents afin de gagner en efficacité lors de l’examen final (et ensuite en entreprise).

J’ai dû aussi m’imposer une discipline : oublier son tél portable et ses e-mails du travail, se concentrer à 100 % au présentiel en classe, c’est une vraie chance, il faut en profiter.

Souhaitez-vous ajouter quelque chose ? (Une anecdote, un conseil, des chiffres...)

Adriana. Oui, il y a eu une très belle cohésion de groupe, de l’entraide très appréciable ! Pour l’anecdote, je pense pouvoir citer le fameux couscous du vendredi…

Olivier. J’ai vraiment apprécié cette formation : je fais tout mon possible pour la prolonger par des modules complémentaires (Analyse des séries temporelles avec R par exemple). Je regarde aussi pour compléter cette formation par son pendant en Python : j’ai l’impression que les recruteurs sont plus demandeurs de compétence avec ce logiciel.