Analyse exploratoire des données avec R
Prochaine session
27, 28, 29 novembre 2023
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R)
- Connaissances de base du logiciel R (formation R initiation)
- Notions de calcul matriciel souhaitables
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R)
- Connaissances de base du logiciel R (formation R initiation)
- Notions de calcul matriciel souhaitables
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Teaser : les principaux packages R utilisés en analyse exploratoire des données
Le langage R offre une variété de packages et de fonctionnalités pour réaliser des analyses multivariées : analyse en composantes principales (ACP), analyse factorielle des correspondances (AFC), analyse des correspondances multiples (ACM) et classification non supervisée. Les voici :
Package FactoMineR
: Ce package propose des fonctionnalités pour l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC) et l’analyse des correspondances multiples (ACM). Il permet de calculer les composantes principales, d’effectuer des AFC et ACM pour les variables catégorielles, de visualiser les résultats et bien plus encore.
Exemple de code R avec le package FactoMineR
:
library(FactoMineR)
# Analyse en composantes principales (ACP)
result_acp <- PCA(data, scale.unit = TRUE)
# Analyse factorielle des correspondances (AFC)
result_afc <- MCA(data, graph = FALSE)
# Analyse des correspondances multiples (ACM)
result_acm <- MCA(data, quanti.sup = c(2, 3), quali.sup = c(4, 5))
Package ClusterR
: Ce package offre des fonctionnalités pour effectuer des analyses de classification non supervisée, y compris la classification hiérarchique ascendante et la classification k-means.
Exemple de code R avec le package ClusterR
:
library(ClusterR)
# Classification hiérarchique ascendante
result_hclust <- hclust(data)
# Classification k-means
result_kmeans <- kmeans(data, centers = 3)
Package Factoextra
: Ce package fournit des fonctions pour visualiser les résultats des analyses factorielles et des classifications non supervisées, notamment les graphiques des composantes principales, les diagrammes en nuage de points, les dendrogrammes, etc.
Exemple de code R avec le package Factoextra
:
library(Factoextra)
# Visualisation des composantes principales (ACP)
fviz_pca_ind(result_acp, col.ind = "cos2")
# Visualisation des résultats de la classification k-means
fviz_cluster(result_kmeans, data)
Cette liste n’est pas exhaustive, R dispose en effet d’une vaste gamme de packages et de fonctionnalités qui permettent d’effectuer des analyses multivariées plus avancées en fonction de vos besoins. La documentation de chaque package fournit des informations détaillées sur leur utilisation.
Teaser : les principaux packages R utilisés en analyse exploratoire des données
Le langage R offre une variété de packages et de fonctionnalités pour réaliser des analyses multivariées : analyse en composantes principales (ACP), analyse factorielle des correspondances (AFC), analyse des correspondances multiples (ACM) et classification non supervisée. Les voici :
Package FactoMineR
: Ce package propose des fonctionnalités pour l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC) et l’analyse des correspondances multiples (ACM). Il permet de calculer les composantes principales, d’effectuer des AFC et ACM pour les variables catégorielles, de visualiser les résultats et bien plus encore.
Exemple de code R avec le package FactoMineR
:
library(FactoMineR)
# Analyse en composantes principales (ACP)
result_acp <- PCA(data, scale.unit = TRUE)
# Analyse factorielle des correspondances (AFC)
result_afc <- MCA(data, graph = FALSE)
# Analyse des correspondances multiples (ACM)
result_acm <- MCA(data, quanti.sup = c(2, 3), quali.sup = c(4, 5))
Package ClusterR
: Ce package offre des fonctionnalités pour effectuer des analyses de classification non supervisée, y compris la classification hiérarchique ascendante et la classification k-means.
Exemple de code R avec le package ClusterR
:
library(ClusterR)
# Classification hiérarchique ascendante
result_hclust <- hclust(data)
# Classification k-means
result_kmeans <- kmeans(data, centers = 3)
Package Factoextra
: Ce package fournit des fonctions pour visualiser les résultats des analyses factorielles et des classifications non supervisées, notamment les graphiques des composantes principales, les diagrammes en nuage de points, les dendrogrammes, etc.
Exemple de code R avec le package Factoextra
:
library(Factoextra)
# Visualisation des composantes principales (ACP)
fviz_pca_ind(result_acp, col.ind = "cos2")
# Visualisation des résultats de la classification k-means
fviz_cluster(result_kmeans, data)
Cette liste n’est pas exhaustive, R dispose en effet d’une vaste gamme de packages et de fonctionnalités qui permettent d’effectuer des analyses multivariées plus avancées en fonction de vos besoins. La documentation de chaque package fournit des informations détaillées sur leur utilisation.