Analyse exploratoire des données avec Python
Prochaine session
12, 13, 14 novembre 2025
Prochaines sessions et informations pratiques
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python)
- Connaissances de base de Python (formation Python initiation)
- Notions de calcul matriciel souhaitables
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python)
- Connaissances de base de Python (formation Python initiation)
- Notions de calcul matriciel souhaitables
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Teaser : les principales bibliothèques Python utilisées en analyse exploratoire des données
Python offre plusieurs bibliothèques et packages pour réaliser des analyses multivariées telles que l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM) et la classification non supervisée. En voici quelques uns :
Bibliothèque scikit-learn
: Scikit-learn est une bibliothèque populaire d’apprentissage automatique en Python. Elle propose des outils pour la réalisation d’ACP, de clustering et de classification non supervisée.
Exemple de code Python avec scikit-learn :
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
# Analyse en composantes principales (ACP)
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)
# Classification non supervisée avec k-means
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
kmeans = KMeans(n_clusters=3)
kmeans.fit(scaled_data)
Bibliothèque prince
: Prince est une bibliothèque spécialisée dans les méthodes d’analyse multivariée en Python. Elle offre des fonctionnalités pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.
Exemple de code Python avec prince :
import prince
# Analyse en composantes principales (ACP)
pca = prince.PCA(n_components=2)
pca_result = pca.fit_transform(data)
# Analyse factorielle des correspondances (AFC)
afc = prince.FAMD(n_components=2)
afc_result = afc.fit_transform(data)
# Analyse des correspondances multiples (ACM)
acm = prince.MCA(n_components=2)
acm_result = acm.fit_transform(data)
Bibliothèque scipy
: Scipy est une bibliothèque scientifique en Python qui propose des fonctions pour l’analyse de données et les statistiques. Elle inclut des méthodes pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.
Exemple de code Python avec scipy :
from scipy.linalg import svd
# Analyse en composantes principales (ACP)
U, s, V = svd(data, full_matrices=False)
pca_result = U[:, :2] * s[:2]
# Analyse factorielle des correspondances (AFC)
result = scipy.stats.chisquare(data)
# Analyse des correspondances multiples (ACM)
result = scipy.stats.chi2_contingency(data)
Python dispose de nombreux autres packages et fonctionnalités permettant d’effectuer des analyses plus avancées en fonction de vos besoins spécifiques. La documentation de chaque bibliothèque et package est très détaillée et vous permettra d’aller plus loin.
Teaser : les principales bibliothèques Python utilisées en analyse exploratoire des données
Python offre plusieurs bibliothèques et packages pour réaliser des analyses multivariées telles que l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM) et la classification non supervisée. En voici quelques uns :
Bibliothèque scikit-learn
: Scikit-learn est une bibliothèque populaire d’apprentissage automatique en Python. Elle propose des outils pour la réalisation d’ACP, de clustering et de classification non supervisée.
Exemple de code Python avec scikit-learn :
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
# Analyse en composantes principales (ACP)
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)
# Classification non supervisée avec k-means
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
kmeans = KMeans(n_clusters=3)
kmeans.fit(scaled_data)
Bibliothèque prince
: Prince est une bibliothèque spécialisée dans les méthodes d’analyse multivariée en Python. Elle offre des fonctionnalités pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.
Exemple de code Python avec prince :
import prince
# Analyse en composantes principales (ACP)
pca = prince.PCA(n_components=2)
pca_result = pca.fit_transform(data)
# Analyse factorielle des correspondances (AFC)
afc = prince.FAMD(n_components=2)
afc_result = afc.fit_transform(data)
# Analyse des correspondances multiples (ACM)
acm = prince.MCA(n_components=2)
acm_result = acm.fit_transform(data)
Bibliothèque scipy
: Scipy est une bibliothèque scientifique en Python qui propose des fonctions pour l’analyse de données et les statistiques. Elle inclut des méthodes pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.
Exemple de code Python avec scipy :
from scipy.linalg import svd
# Analyse en composantes principales (ACP)
U, s, V = svd(data, full_matrices=False)
pca_result = U[:, :2] * s[:2]
# Analyse factorielle des correspondances (AFC)
result = scipy.stats.chisquare(data)
# Analyse des correspondances multiples (ACM)
result = scipy.stats.chi2_contingency(data)
Python dispose de nombreux autres packages et fonctionnalités permettant d’effectuer des analyses plus avancées en fonction de vos besoins spécifiques. La documentation de chaque bibliothèque et package est très détaillée et vous permettra d’aller plus loin.