Réduction de dimension et classification non supervisée (Clustering)
Cette formation permet de comprendre et savoir mettre en œuvre des techniques statistiques permettant de regrouper des individus en classes homogènes, ce que l’on nomme communément classification non supervisée ou clustering.
Bonnes connaissances statistiques et du logiciel R.
Avant tout travail de modélisation, on se doit de décrire les données dont on dispose. Malheureusement le statisticien se retrouve fréquemment face à des bases de données massives, tant en termes de nombre d’individus qu’en termes de nombre de variables. Les techniques d’analyse de données « à la française » constituent une solution adéquate pour décrire des ensembles de grande dimension.
Parmi ces méthodes, on trouve notamment l’analyse en composantes principales (ACP). Il s’agit de l’aînée des méthodes d’analyse factorielle qui s’appuient sur la réduction de rang découlant des travaux de décomposition matricielle d’Eckart et Young. L’ACP est utilisée pour des variables quantitatives ; pour des variables qualitatives, on utilisera l’Analyse Factorielle des Correspondances (AFC) ou l’Analyse des Correspondances Multiples (ACM).
Les méthodes de clustering également désignées en français sous le nom méthodes de classification non supervisée ou automatique)permettent de regrouper des individus au sein de classes homogènes sur la base d’informations communes.
Réduction de dimension
Analyse en composantes principales Analyse des correspondances multiples
Généralités sur classification non supervisée
Concept de classification non supervisée (vs supervisée) Métriques : dissemblance, dissimilarité, distance et autres Inerties inter et intra-classes
Méthodes hiérarchiques
Classification Ascendante Hiérarchique Classification Descendante Hiérarchique
Méthodes de partitionnement
Centres mobiles K-means Nuées dynamiques Formes fortes
Méthode basée sur la densité (dbscan)
Les cas pratiques seront traités sous R.
Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.