Analyse exploratoire des données avec R

 
  3 jours       1620       Avancé    
  Prochaine session
18, 19, 20 novembre 2024
Objectifs de la formation
  • Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
  • Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
  • Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.

Prérequis

Public visé

Data analysts, chargés d’études statistiques, data scientists


Programme détaillé

Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.

Analyse en composantes principales ACP

  • Inerties
  • Recherche des axes principaux
  • Composantes principales
  • Analyse du nuage des individus
  • Analyse du nuage des variables
  • Interprétation des résultats.

Analyse factorielle des correspondances AFC

  • Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
  • Analyse des nuages des profils
  • Liens entre les analyses lignes et colonnes
  • Interprétation des résultats.

Analyse des correspondances multiples ACM

  • Analyse des correspondances sur le tableau disjonctif complet
  • Propriétés de l’ACM
  • Analyse du tableau de Burt

Classification non supervisée

  • Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
  • Méthodes de partitionnement : K-means, PAM
  • Classification mixte