Certificat de Data Analyst 
Exploiter, analyser des données structurées et réaliser des études statistiques

 
  21 jours (126 h)       7 350    
  Prochaine session
13 janvier au 27 juin 2022

Ce certificat de formation continue a pour ambition de permettre à toute personne possédant des notions de base en mathématiques d'acquérir les compétences nécessaires au métier de data analyst (chargé d'études statistiques).

Quels sont les objectifs du certicat de Data Analyst ?

Notre ambition est d’aider les professionnels à mieux traiter, analyser, exploiter les données de plus en plus nombreuses, complexes et d’en tirer une véritable valeur ajoutée pour aider les dirigeants à prendre de bonnes décisions sur la base d’informations chiffrées fiables.

A l'issue de cette formation, le stagiaire saura traiter des données quantitatives et qualitatives. Il saura résumer l’information pertinente et, en fonction du problème posé, mettre en œuvre les méthodes adéquates et en interpréter les résultats.

Le data analyst n’est pas qu’un mathématicien ! En plus d’aimer les chiffres, il doit être capable d’écrire et de présenter les conclusions de ses analyses de la manière la plus claire possible. C’est pourquoi, dans un contexte de demande croissante de données statistiques l’Ensae-Ensai Formation Continue (Cepe) propose une formation certifiante avec des professionnels expérimentés.

À propos de la formation

La formation s’étend sur 21 jours soit 126 heures (hors examen) d’enseignements théoriques et pratiques. En dix mois, les connaissances générales de statistique sont acquises au travers de la compréhension et de l’utilisation des principaux concepts de statistique exploratoire et décisionnelle : statistique descriptive, inférentielle, modélisation et régression (méthode des Moindres Carrés Ordinaires, Analyse de la variance ANOVA, Régression logistique), analyse de données multidimensionnelles, séries temporelles, traitement des données manquantes.

Des ateliers permettent de mettre en pratique les savoirs acquis sur des applications concrètes.

Tous les intervenants sont des spécialistes du domaine, praticiens ou enseignants-chercheurs. Ils ont tous une expérience et un goût spécifique pour la formation continue. Les intuitions, les idées sont privilégiées au formalisme mathématique, même s’il est souhaitable que celui-ci soit parfois détaillé pour permettre une plus grande autonomie des stagiaires. Les cours donnent une grande part aux applications pratiques sur ordinateur, essentiellement sous R.

Les modules du certificat sont progressifs et permettent d'acquérir rapidement des compétences solides et un savoir-faire opérationnel. À raison de 2, 3 ou 4 jours par mois, la formation est compatible avec une activité professionnelle.

PROGRAMME DU CERTIFICAT  (21 jours répartis en 7 séquences de 2 à 4 jours)
 
OBJECTIFS

  • Manipuler des jeux à de données à l’aide du logiciel R
  • Décrire des jeux de données
CONTENU

Manipulation de données sous R

  • Les objets classiques (data frame, liste, etc.)
  • Importation de données sous différents formats
  • Concaténation de données

Notions de base de statistique univariée

  • Individu, échantillon, population, variables quantitatives et qualitatives
  • Indicateurs de position (moyenne, médiane, quantiles, etc.) et de dispersion (variance, écart-type, etc.) pour une variable quantitative
  • Représentation de la distribution d’une variable (histogramme, diagramme en barres, etc.)

Notions de base de statistique bivariée

  • Tableaux croisés entre 2 variables
  • Indicateurs de liaison entre variables (statistique du khi-deux, coefficient de corrélation linéaire, etc.)
OBJECTIFS

  • Appréhender les concepts d’inférence, d’échantillonnage et d’estimation.
  • Déterminer des intervalles de confiance.
  • Réaliser un test statistique.
CONTENU

Notions de probabilités

  • Variables aléatoires (concept, espérance et variance, indépendance, etc.).
  • Principales lois de probabilité.
  • Loi forte des grands nombres (LFGN) et théorème de la limite centrale (TCL).

Intervalles de confiance

  • Principes (niveau de confiance, etc.).
  • Intervalles de confiance usuels : proportion, moyenne, variance.

Test statistique

  • Principes (erreurs de 1ère et 2e espèce, niveau de test, p-valeur, etc.).
  • Tests statistiques usuels : proportion, moyenne, variance.
  • Tests de comparaison entre deux échantillons.
  • Test d’adéquation à une loi (khi-deux, Kolmogorov-Smirnov).
OBJECTIFS

  • Mettre en œuvre des méthodes d’analyse factorielle (ACP, AFC, ACM)
  • Analyser les sorties d’une ACP, AFC ou ACM afin d’en tirer des informations utiles aux métiers
CONTENU

Analyse en composantes principales (ACP)

  • Principes de l’ACP (réduction de dimension).
  • Interprétation des résultats (cercle des corrélations, projection des individus, etc.).

Analyse factorielle des correspondances (AFC)

  • Profils-lignes et profils-colonnes.
  • Distance du khi-deux.

Analyse des correspondances multiples (ACM)

  • Tableau disjonctif complet et tableau de Burt.
  • Principes de l’ACM.
  • Interprétation des résultats.

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire une analyse de données de bout en bout
OBJECTIFS

  • Construire un modèle de régression linéaire pour expliquer et/ou prévoir des phénomènes.
  • Analyser l’influence de facteurs qualitatifs dans un modèle de régression linéaire.
CONTENU

Régression linéaire simple

  • Méthode des moindres carrés
  • Utilisation du modèle en prévision

Régression linéaire multiple

  • Modèle et estimation
  • Validation du modèle (significativité des paramètres, résidus, données atypiques et/ou influentes, etc.)
  • Choix de variables (critères et algorithmes)
  • Cas des variables explicatives qualitatives
OBJECTIFS

  • Comprendre les principes de la classification supervisée (également appelée discrimination).
  • Mettre en œuvre les méthodes de référence pour la classification supervisée.
CONTENU

Principes de la classification supervisée

Régression logistique

  • Présentation du modèle
  • Estimation et tests des paramètres
  • Sélection de variables

Arbres

  • Arbres de décision (et de régression) CART
  • Introduction aux random forests
OBJECTIFS

  • Savoir élaborer une typologie d’individus
  • Savoir caractériser les groupes obtenus
  • Savoir traiter des valeurs manquantes d’un tableau de données
CONTENU

Rappels sur les notions de distance, de variance et d’inertie

Méthodes de partitionnement (K-means)

Classification ascendante hiérarchique

Caractérisation des groupes obtenus

Traitement des valeurs manquantes

  • Identifier les différentes sources de valeurs manquantes
  • Imputation simple
  • Imputation multiple

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire un analyse de données de bout en bout
OBJECTIFS

  • Connaître les prétraitement à effectuer pour mener à bien une analyse textuelle
CONTENU

Importation de textes avec R

Création du corpus et du vocabulaire

Nettoyage des données (accents, valeurs manquantes, casses…)

Lemmatisation ou racinisation ?

Analyses graphiques

Atelier (1 journée)

  • A partir d’un jeu de données savoir déterminer les analyses à effectuer
  • Restituer l’information de l’étude de manière lisible et adaptée les résultats en vue d’une communication
  • Conduire un analyse de données de bout en bout

A la fin du parcours de formation, les stagiaires sont soumis à une évaluation portant sur l'ensemble des modules.

La validation du certificat est soumise à la réussite de cette évaluation ainsi qu’à la présence obligatoire à l'ensemble des cours du certificat.

En cas de réussite, le candidat se voit décerner le Certificat de Data Analyst du Genes.

  Inscrivez-vous et bénéficiez d'une réduction sur nos autres formations !

En vous inscrivant à ce certificat, vous bénéficiez d'une réduction de 20% sur l'ensemble de nos formations catalogue durant l'année qui suit l'obtention de votre diplôme.