Certificat de Data Analyst 
Exploiter, analyser des données structurées et réaliser des études statistiques

 
  21 jours (126 h)       7 750    
  Prochaine session
5 octobre 2023 au 17 mai 2024

Ce certificat de formation continue a pour ambition de permettre à toute personne possédant des notions de base en mathématiques d'acquérir les compétences nécessaires au métier de data analyst (chargé d'études statistiques).

Quels sont les objectifs du certicat de Data Analyst ?

Notre ambition est d’aider les professionnels à mieux traiter, analyser, exploiter les données de plus en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions sur la base d’informations chiffrées fiables.

   Une question ? Prenez RDV avec nous !

A l'issue de cette formation, le stagiaire saura traiter des données quantitatives et qualitatives. Il saura résumer l’information pertinente et, en fonction du problème posé, mettre en œuvre les méthodes adéquates et en interpréter les résultats.

Le data analyst n’est pas qu’un mathématicien ! En plus d’aimer les chiffres, il doit être capable d’écrire et de présenter les conclusions de ses analyses de la manière la plus claire possible. C’est pourquoi, dans un contexte de demande croissante de données statistiques l’Ensae-Ensai Formation Continue (Cepe) propose une formation certifiante avec des professionnels expérimentés.

À propos de la formation

La formation s’étend sur 21 jours soit 126 heures (hors examen) d’enseignements théoriques et pratiques. En dix mois, les connaissances générales de statistique sont acquises au travers de la compréhension et de l’utilisation des principaux concepts de statistique exploratoire et décisionnelle : statistique descriptive, inférentielle, modélisation et régression (méthode des Moindres Carrés Ordinaires, Analyse de la variance ANOVA, Régression logistique), analyse de données multidimensionnelles, séries temporelles, traitement des données manquantes.

Des ateliers permettent de mettre en pratique les savoirs acquis sur des applications concrètes.

Tous les intervenants sont des spécialistes du domaine, praticiens ou enseignants-chercheurs. Ils ont tous une expérience et un goût spécifique pour la formation continue. Les intuitions, les idées sont privilégiées au formalisme mathématique, même s’il est souhaitable que celui-ci soit parfois détaillé pour permettre une plus grande autonomie des stagiaires. Les cours donnent une grande part aux applications pratiques sur ordinateur, essentiellement sous R.

Les modules du certificat sont progressifs et permettent d'acquérir rapidement des compétences solides et un savoir-faire opérationnel. À raison de 2, 3 ou 4 jours par mois, la formation est compatible avec une activité professionnelle.

PROGRAMME DU CERTIFICAT  (21 jours répartis en 7 séquences de 2 à 4 jours)
 
OBJECTIFS

  • Manipuler des jeux à de données à l’aide du logiciel R
  • Décrire des jeux de données
CONTENU

Manipulation de données sous R

  • Les objets classiques (data frame, liste, etc.)
  • Importation de données sous différents formats
  • Concaténation de données

Notions de base de statistique univariée

  • Individu, échantillon, population, variables quantitatives et qualitatives
  • Indicateurs de position (moyenne, médiane, quantiles, etc.) et de dispersion (variance, écart-type, etc.) pour une variable quantitative
  • Représentation de la distribution d’une variable (histogramme, diagramme en barres, etc.)

Notions de base de statistique bivariée

  • Tableaux croisés entre 2 variables
  • Indicateurs de liaison entre variables (statistique du khi-deux, coefficient de corrélation linéaire, etc.)
OBJECTIFS

  • Appréhender les concepts d’inférence, d’échantillonnage et d’estimation.
  • Déterminer des intervalles de confiance.
  • Réaliser un test statistique.
CONTENU

Notions de probabilités

  • Variables aléatoires (concept, espérance et variance, indépendance, etc.).
  • Principales lois de probabilité.
  • Loi forte des grands nombres (LFGN) et théorème de la limite centrale (TCL).

Intervalles de confiance

  • Principes (niveau de confiance, etc.).
  • Intervalles de confiance usuels : proportion, moyenne, variance.

Test statistique

  • Principes (erreurs de 1ère et 2e espèce, niveau de test, p-valeur, etc.).
  • Tests statistiques usuels : proportion, moyenne, variance.
  • Tests de comparaison entre deux échantillons.
  • Test d’adéquation à une loi (khi-deux, Kolmogorov-Smirnov).
OBJECTIFS

  • Mettre en œuvre des méthodes d’analyse factorielle (ACP, AFC, ACM)
  • Analyser les sorties d’une ACP, AFC ou ACM afin d’en tirer des informations utiles aux métiers
CONTENU

Analyse en composantes principales (ACP)

  • Principes de l’ACP (réduction de dimension).
  • Interprétation des résultats (cercle des corrélations, projection des individus, etc.).

Analyse factorielle des correspondances (AFC)

  • Profils-lignes et profils-colonnes.
  • Distance du khi-deux.

Analyse des correspondances multiples (ACM)

  • Tableau disjonctif complet et tableau de Burt.
  • Principes de l’ACM.
  • Interprétation des résultats.

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire une analyse de données de bout en bout
OBJECTIFS

  • Construire un modèle de régression linéaire pour expliquer et/ou prévoir des phénomènes.
  • Analyser l’influence de facteurs qualitatifs dans un modèle de régression linéaire.
CONTENU

Régression linéaire simple

  • Méthode des moindres carrés
  • Utilisation du modèle en prévision

Régression linéaire multiple

  • Modèle et estimation
  • Validation du modèle (significativité des paramètres, résidus, données atypiques et/ou influentes, etc.)
  • Choix de variables (critères et algorithmes)
  • Cas des variables explicatives qualitatives
OBJECTIFS

  • Comprendre les principes de la classification supervisée (également appelée discrimination).
  • Mettre en œuvre les méthodes de référence pour la classification supervisée.
CONTENU

Principes de la classification supervisée

Régression logistique

  • Présentation du modèle
  • Estimation et tests des paramètres
  • Sélection de variables

Arbres

  • Arbres de décision (et de régression) CART
  • Introduction aux random forests
OBJECTIFS

  • Savoir élaborer une typologie d’individus
  • Savoir caractériser les groupes obtenus
  • Savoir traiter des valeurs manquantes d’un tableau de données
CONTENU

Rappels sur les notions de distance, de variance et d’inertie

Méthodes de partitionnement (K-means)

Classification ascendante hiérarchique

Caractérisation des groupes obtenus

Traitement des valeurs manquantes

  • Identifier les différentes sources de valeurs manquantes
  • Imputation simple
  • Imputation multiple

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire un analyse de données de bout en bout
OBJECTIFS

  • Connaître les prétraitement à effectuer pour mener à bien une analyse textuelle
CONTENU

Importation de textes avec R

Création du corpus et du vocabulaire

Nettoyage des données (accents, valeurs manquantes, casses…)

Lemmatisation ou racinisation ?

Analyses graphiques

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire un analyse de données de bout en bout
Qu'est-ce qu'un Data Analyst ?

Craig Mundie

Les données deviennent la nouvelle matière première des entreprises

Craig Mundie, Conseiller principal auprès du PDG de Microsoft


Quels que soient le secteur d’activité, la taille et le statut de l’entreprise, de l’institut ou de l’administration, nul ne peut ignorer les masses de données disponibles et chacun se doit aujourd’hui de considérer toutes les opportunités offertes par les données.

La première d’entre elles réside dans le suivi opérationnel des processus internes. Des données de qualité, complètes et partagées permettent d’accroitre la connaissance interne, et ainsi de faciliter le pilotage par les décideurs. Le tableau de bord est l’outil usuellement retenu. Pour élaborer de tels tableaux, il faut évaluer les données disponibles, les corriger et les compléter si besoin, puis extraire ces données pour en fournir ensuite une synthèse explicite et exploitable. La capacité à mener des analyses descriptives classiques, des analyses exploratoires plus complexes, voire à mettre en œuvre des modèles reliant ces données, est un prérequis indispensable pour assurer la qualité de telles synthèses.

Une autre opportunité réside dans ce que l’on nomme communément l’open data, c’est-à-dire la mise à disposition de données brutes ou synthétisées à l’extérieur de l’entreprise ou de l’établissement qui les a produites. Ces « données ouvertes » permettent de générer des écosystèmes propices au traitement de problématiques métier par un réseau d’acteurs externes, des entreprises (parmi lesquelles des startups) mais également des académiques. Là-encore, les organisations doivent appréhender au mieux les données et informations mises à disposition, au risque de perdre en crédibilité.

Ces démarches autour de la donnée nécessitent une mise en valeur éclairée du patrimoine à disposition, et une réflexion quant à la collecte de nouvelles données, et sa mise en œuvre le cas échéant.

Le rôle endossé par le Data Analyst et ses principales missions

L’univers du big data a généré de nouveaux métiers, parmi lesquels les Data Engineers à même de déployer des solutions techniques pour le stockage, les calculs et la mise en production d’outils, et les Data Scientists dépositaires de connaissances pointues sur la manipulation et l’extraction d’information à l’aide du machine learning. Les Data Analysts constituent la plus grande masse des salariés impactés par l’analyse de données, leur défi est d’hybrider des traitements statistiques avec les finalités métier.

La fonction du Data Analyst consiste à ordonner les données des organisations et à en collecter de nouvelles. En convertissant ces masses de données, parfois non-structurées, en enseignements exploitables le Data Analyst facilite le partage d’informations et le pilotage des organisations. Ses travaux offrent ainsi un levier et un relais de croissance à l’entreprise qui l’emploie.

Ses principales missions sont :

  • Collecter et extraire des données
  • Tester et contrôler la qualité des données
  • Décrire les données de manière synthétique, via des tableaux, des graphiques et des rapports (data visualisation)
  • Mener des analyses exploratoires de données (data mining)
  • Mettre en œuvre des modélisations statistiques simples pour appréhender des données qualitatives ou quantitatives

Les compétences et qualités du métier

Le Data Analyst doit posséder des compétences issues de la statistique et de l’informatique pour mener à bien ces différentes tâches, sans omettre ses connaissances métier qui lui permettent de produire des interprétations éclairantes.

Afin de manipuler des jeux de données, les croiser, les nettoyer, il doit pouvoir invoquer un langage informatique spécialisé tel que R ou Python, et utiliser les bibliothèques adéquates.

Pour décrire/explorer ses jeux de données, le Data Analyst doit pouvoir s’appuyer non seulement sur la statistique descriptive classique mais aussi l’analyse factorielle (ACP, ACM) et le clustering (CAH, K-means). Moins experts en algorithmique que les Data Scientists, les Data Analysts sauront mettre en œuvre des modélisations simples (régression linéaire, régression logistique), très souvent suffisantes pour des analyses éclairantes. Et si la complexité de la problématique requiert des méthodes avancées, ils pourront dialoguer avec des experts du machine learning, et utiliser des codes mis à disposition.





Éric Matzner-Lober<br><small>Responsable du certificat</small>

Éric Matzner-Lober
Responsable du certificat

Professeur de Statistique à l’Université de Rennes 2 et membre affilié au laboratoire National de Los Alamos, il a rédigé plusieurs livres sur R et les méthodes de régression. Il participe activement à des programmes de recherche en interaction avec des entreprises comme dans le project Smart Electric Lyon.

Magalie Houée-Bigot

Magalie Houée-Bigot

Docteure en sciences économiques de l'Université Paris-Dauphine, elle est actuellement ingénieur à Agrocampus Ouest. Elle enseigne la statistique, l'analyse de données, et développe des packages R en lien avec ses thématiques de recherche. Son activité de recherche porte sur la modélisation en grande dimension et les méthodes de machine learning.

Nicolas Jégou

Nicolas Jégou

Nicolas Jégou est docteur en Mathématiques Appliquées et il est actuellement Maître de Conférences à l’Université Rennes 2. Ses activités de recherche portent sur la régression non paramétrique. Il travaille en particulier sur les méthodes de régression sous contraintes de forme et les modèles additifs. Il a également collaboré à la rédaction de plusieurs ouvrages sur le logiciel R.

Vincent Lefieux

Vincent Lefieux

Vincent Lefieux est diplômé de l’ENSAI et titulaire d’un doctorat en Statistique (Université Rennes 2). Après avoir occupé des postes d’ingénieur chercheur à EDF R&D puis RTE R&D, il dirige actuellement le pôle Data science à RTE. En parallèle il a donné de nombreux cours dans des écoles d’ingénieurs (Centrale Paris-ESSEC, ENSAE, ENSAI, ENPC, ENSTA) et a été maître de conférence associé (PAST) à l’UPMC de 2010 à 2015.

A la fin du parcours de formation, les stagiaires sont soumis à une évaluation portant sur l'ensemble des modules.

La validation du certificat est soumise à la réussite de cette évaluation ainsi qu’à la présence obligatoire à l'ensemble des cours du certificat.

En cas de réussite, le candidat se voit décerner le Certificat de Data Analyst du Genes.

  Inscrivez-vous et bénéficiez d'une réduction sur nos autres formations !

En vous inscrivant à ce certificat, vous bénéficiez d'une réduction de 20% sur l'ensemble de nos formations catalogue durant l'année qui suit l'obtention de votre diplôme.

Olivier Riss

Olivier Riss, chargé d’études statistiques dans la captive de financement d'un constructeur automobile, Alumni de la promotion CDA10 (2022), nous explique de ce que lui a apporté le Certificat de Data Analyst. Laissons lui la parole.

Pouvez-vous vous présenter en quelques mots ?

Je travaille dans le service Business Intelligence de la direction commerciale et marketing de mon entreprise. J’ai une formation initiale en marketing vente en école supérieure de commerce. J’ai toujours été hautement intéressé par l’utilisation des données pour aider à prendre des décisions.

Pour quelle raison avez-vous décidé de vous former à la Data Analyse ?

Je souhaitais aller au-delà de la Data visualisation et avoir de meilleurs outils pour expliquer des résultats. Je ne connaissais pas les bases de modélisation et de régression, mais cela m’attirait ! J’avais envie de prendre du temps pour « retourner à l’école », me remettre dans la théorie pour bien comprendre les concepts à manipuler par la suite.

Pourquoi avoir choisi l’Ensae-Ensai Formation Continue ?

Le rythme de quelques jours par mois était parfait pour continuer mon activité professionnelle sans difficulté. Je connaissais la réputation de l’établissement. J’ai été séduit par la présentation du programme sur le site Internet, notamment les vidéos très explicites : je m’y projetais bien ! En plus, c’était proche de mon domicile. Le budget était raisonnable : j’ai pu financer cette formation avec mon CPF et un complément de mon employeur.

En quoi cette formation a-t-elle changé votre quotidien professionnel ?

Elle m’a clairement permis de prendre de la hauteur sur mon processus de traitement de données : je sépare bien mieux les étapes de préparation, d’analyse et de restitution. J’appréhende mieux les difficultés en cherchant à comprendre ce qui ne fonctionne pas comme prévu ; mes collègues me trouvent bien plus pédagogue quand je dois leur expliquer un traitement.

Je peux désormais mieux travailler avec les Data Scientists quand ils proposent de construire des algorithmes de profilage.

A la suite de cette expérience, avez-vous des conseils à donner à de potentiels candidats ?

Le "retour à l’école" implique une présence différente que celle qu’on pratique en entreprise : il faut être à l’écoute, capable de prendre des notes tout en appliquant les scripts sous R studio. J’ai mis plusieurs jours à trouver la bonne organisation (Rmarkdown + sauvegarde sur un Cloud perso de l’ensemble des documents). Il faut régulièrement trier ses documents afin de gagner en efficacité lors de l’examen final (et ensuite en entreprise).

J’ai dû aussi m’imposer une discipline : oublier son tél portable et ses e-mails du travail, se concentrer à 100 % au présentiel en classe, c’est une vraie chance, il faut en profiter.

Souhaitez-vous ajouter quelque chose ? (Une anecdote, un conseil, des chiffres...)

J’ai vraiment apprécié cette formation : je fais tout mon possible pour la prolonger par des modules complémentaires (Analyse des séries temporelles avec R par exemple). Je regarde aussi pour compléter cette formation par son pendant en Python : j’ai l’impression que les recruteurs sont plus demandeurs de compétence avec ce logiciel.