Analyse exploratoire des données avec Python

Toutes les formations Méthodes statistiques

3 jours 1700 Avancé

Prochaine session
4, 5, 6 novembre 2026

Prochaines sessions et informations pratiques

Objectifs de la formation

Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.

Objectifs de la formation

Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.

Analyse exploratoire des données avec Python

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python)
Connaissances de base de Python (formation Python initiation)
Notions de calcul matriciel souhaitables

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python)
Connaissances de base de Python (formation Python initiation)
Notions de calcul matriciel souhaitables

Public visé

Data analysts, chargés d’études statistiques, data scientists

Public visé

Data analysts, chargés d’études statistiques, data scientists

Programme détaillé

Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.

Analyse en composantes principales ACP (6h)

Inerties
Recherche des axes principaux
Composantes principales
Analyse du nuage des individus
Analyse du nuage des variables
Interprétation des résultats.

Analyse factorielle des correspondances AFC (2h)

Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
Analyse des nuages des profils
Liens entre les analyses lignes et colonnes
Interprétation des résultats.

Analyse des correspondances multiples ACM (3h)

Analyse des correspondances sur le tableau disjonctif complet
Propriétés de l’ACM
Analyse du tableau de Burt

Classification non supervisée (7h)

Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
Méthodes de partitionnement : K-means, PAM
Classification mixte

Programme détaillé

Analyse en composantes principales ACP (6h)

Inerties
Recherche des axes principaux
Composantes principales
Analyse du nuage des individus
Analyse du nuage des variables
Interprétation des résultats.

Analyse factorielle des correspondances AFC (2h)

Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
Analyse des nuages des profils
Liens entre les analyses lignes et colonnes
Interprétation des résultats.

Analyse des correspondances multiples ACM (3h)

Analyse des correspondances sur le tableau disjonctif complet
Propriétés de l’ACM
Analyse du tableau de Burt

Classification non supervisée (7h)

Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
Méthodes de partitionnement : K-means, PAM
Classification mixte

Teaser : les principales bibliothèques Python utilisées en analyse exploratoire des données

Python offre plusieurs bibliothèques et packages pour réaliser des analyses multivariées telles que l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM) et la classification non supervisée. En voici quelques uns :

Bibliothèque scikit-learn : Scikit-learn est une bibliothèque populaire d’apprentissage automatique en Python. Elle propose des outils pour la réalisation d’ACP, de clustering et de classification non supervisée.

Exemple de code Python avec scikit-learn :

from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Analyse en composantes principales (ACP)
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)

# Classification non supervisée avec k-means
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
kmeans = KMeans(n_clusters=3)
kmeans.fit(scaled_data)

Bibliothèque prince : Prince est une bibliothèque spécialisée dans les méthodes d’analyse multivariée en Python. Elle offre des fonctionnalités pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.

Exemple de code Python avec prince :

import prince

# Analyse en composantes principales (ACP)
pca = prince.PCA(n_components=2)
pca_result = pca.fit_transform(data)

# Analyse factorielle des correspondances (AFC)
afc = prince.FAMD(n_components=2)
afc_result = afc.fit_transform(data)

# Analyse des correspondances multiples (ACM)
acm = prince.MCA(n_components=2)
acm_result = acm.fit_transform(data)

Bibliothèque scipy : Scipy est une bibliothèque scientifique en Python qui propose des fonctions pour l’analyse de données et les statistiques. Elle inclut des méthodes pour l’ACP, l’AFC, l’ACM et d’autres techniques d’analyse multivariée.

Exemple de code Python avec scipy :

from scipy.linalg import svd

# Analyse en composantes principales (ACP)
U, s, V = svd(data, full_matrices=False)
pca_result = U[:, :2] * s[:2]

# Analyse factorielle des correspondances (AFC)
result = scipy.stats.chisquare(data)

# Analyse des correspondances multiples (ACM)
result = scipy.stats.chi2_contingency(data)

Python dispose de nombreux autres packages et fonctionnalités permettant d’effectuer des analyses plus avancées en fonction de vos besoins spécifiques. La documentation de chaque bibliothèque et package est très détaillée et vous permettra d’aller plus loin.

Teaser : les principales bibliothèques Python utilisées en analyse exploratoire des données

Exemple de code Python avec scikit-learn :

from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Analyse en composantes principales (ACP)
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)

# Classification non supervisée avec k-means
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
kmeans = KMeans(n_clusters=3)
kmeans.fit(scaled_data)

Exemple de code Python avec prince :

import prince

# Analyse en composantes principales (ACP)
pca = prince.PCA(n_components=2)
pca_result = pca.fit_transform(data)

# Analyse factorielle des correspondances (AFC)
afc = prince.FAMD(n_components=2)
afc_result = afc.fit_transform(data)

# Analyse des correspondances multiples (ACM)
acm = prince.MCA(n_components=2)
acm_result = acm.fit_transform(data)

Exemple de code Python avec scipy :

from scipy.linalg import svd

# Analyse en composantes principales (ACP)
U, s, V = svd(data, full_matrices=False)
pca_result = U[:, :2] * s[:2]

# Analyse factorielle des correspondances (AFC)
result = scipy.stats.chisquare(data)

# Analyse des correspondances multiples (ACM)
result = scipy.stats.chi2_contingency(data)

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique (RS). Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Depuis le 20 février 2026, la loi de finances pour 2026 (décret n° 2026-127()) a modifié les modalités selon lesquelles les titulaires peuvent mobiliser leurs droits sur Mon Compte Formation. Vous pouvez mobiliser désormais au maximum 1 500 € de vos droits CPF* pour suivre une formation qui prépare à une certification professionnelle inscrite au RS. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. (*) « Art. D. 6323-1 A. - Le plafond de droits mobilisables, inscrits sur le compte personnel de formation en application des articles L. 6323-11, L. 6323-27 et L. 6323-34 est fixé à : « Mille cinq cents euros pour les actions sanctionnées par des certifications et habilitations enregistrées dans le répertoire spécifique mentionné à l'article L. 6113-6 ». Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller France Travail validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur france-travail.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes