Statistiques descriptives avec R

 
  2 jours       1080       Initiation    
Formation langage R
Objectifs de la formation
  • Comprendre et savoir mettre en œuvre les principaux outils de statistique descriptive d’une variable : tableaux, graphiques, indicateurs (tendance centrale, dispersion, forme, concentration).
  • Comprendre et savoir mettre en œuvre les principaux outils de statistiques descriptives bivariées : tableaux de contingence, graphiques conditionnels, etc.

Prérequis

Connaissances de base en R (formation R initiation).


Public visé

Data analysts, chargés d’études statistiques


Programme détaillé

La formation est consacrée à la présentation et la mise en œuvre des principaux outils de statistique descriptive.

Statistiques descriptives pour une variable

  • Représentation des distributions statistiques sous forme de tableaux et de graphiques (diagrammes en bâtons, en barres, en secteurs, histogrammes)
  • Calcul d’indicateurs de position (moyenne, médiane), de dispersion (variance, écart-type) et de forme
  • Applications sur cas pratiques

Statistiques descriptives pour deux variables

  • Tableau de contingence
  • Calcul d’indicateurs de liaison entre variables : statistique du khi-deux, V de Cramer, coefficient de corrélation linéaire, etc.
  • Analyses graphiques de la relation entre deux variables : nuages de points, boîtes à moustaches conditionnelles, etc.
  • Applications sur cas pratiques

Teaser : les principales fonctions R utilisées en statistique descriptive

 

Le langage R est très populaire parmi les statisticiens et les chercheurs en raison de sa richesse en packages et en fonctionnalités pour effectuer des analyses statistiques. Les principaux outils et méthodes de R pour la statistique descriptive sont les suivants (liste non exhaustive !) :


Fonctions de base : R dispose de fonctions de base pour calculer des mesures de tendance centrale (mean, median, mode), de dispersion (var, sd, range), de position (quantile) et d’autres statistiques descriptives de base.

Exemple de code R pour les fonctions de base :

# Calcul de la moyenne
mean(data)

# Calcul de l'écart-type
sd(data)

# Calcul des quartiles
quantile(data)


Fonction summary() : La fonction summary() génère un résumé statistique complet des variables numériques d’un ensemble de données, y compris les mesures de tendance centrale, de dispersion, les valeurs minimales et maximales, les quartiles, etc.

Exemple de code R avec la fonction summary() :

summary(data)


Fonction describe() : Le package psych fournit la fonction describe() qui génère un résumé statistique plus détaillé, y compris les mesures de tendance centrale, de dispersion, les valeurs extrêmes, les valeurs manquantes, les valeurs modales, etc.

Exemple de code R avec la fonction describe() :

library(psych)
describe(data)


Fonctions du package dplyr : Le package dplyr fournit des fonctions pour effectuer des manipulations de données et des opérations de regroupement (group_by), ce qui permet d’obtenir des statistiques descriptives par groupes.

Exemple de code R avec le package dplyr :

library(dplyr)
data %>%
  group_by(group_variable) %>%
  summarise(mean = mean(numeric_variable), sd = sd(numeric_variable))

Fonction table() : La fonction table() permet de générer des tableaux de fréquences pour les variables catégorielles.

Exemple de code R avec la fonction table() :

table(categorical_variable)


Package psych : Le package psych propose une variété de fonctions pour effectuer des analyses statistiques descriptives avancées, telles que la matrice de corrélation, l’analyse en composantes principales, la création de graphiques de dispersion, etc.

Exemple de code R avec le package psych :

library(psych)
cor(data)  # Matrice de corrélation
pairs.panels(data)  # Graphiques de dispersion


Ces exemples représentent une petite partie des fonctionnalités disponibles dans R pour la statistique descriptive. R dispose d’une vaste gamme de packages et de fonctions qui permettent d’effectuer des analyses descriptives plus spécifiques en fonction de vos besoins. La documentation très détaillée de R est là pour vous aider et vous permettre d’aller plus loin !