Réduction de dimension et classification non supervisée (Clustering)

 
  Toutes les formations  Data science
  1 jour       720       Avancé    
  Prochaine session
4 avril 2018
Nouvelle formation 2018
Objectifs

Cette formation permet de comprendre et savoir mettre en œuvre des techniques statistiques permettant de regrouper des individus en classes homogènes, ce que l’on nomme communément classification non supervisée ou clustering.


Prérequis

Bonnes connaissances statistiques et du logiciel R.


Contenu

Avant tout travail de modélisation, on se doit de décrire les données dont on dispose. Malheureusement le statisticien se retrouve fréquemment face à des bases de données massives, tant en termes de nombre d’individus qu’en termes de nombre de variables. Les techniques d’analyse de données « à la française » constituent une solution adéquate pour décrire des ensembles de grande dimension.

Parmi ces méthodes, on trouve notamment l’analyse en composantes principales (ACP). Il s’agit de l’aînée des méthodes d’analyse factorielle qui s’appuient sur la réduction de rang découlant des travaux de décomposition matricielle d’Eckart et Young. L’ACP est utilisée pour des variables quantitatives ; pour des variables qualitatives, on utilisera l’Analyse Factorielle des Correspondances (AFC) ou l’Analyse des Correspondances Multiples (ACM).

Les méthodes de clustering également désignées en français sous le nom méthodes de classification non supervisée ou automatique)permettent de regrouper des individus au sein de classes homogènes sur la base d’informations communes.

Le plan du cours est le suivant :

Réduction de dimension

Analyse en composantes principales Analyse des correspondances multiples

Généralités sur classification non supervisée

Concept de classification non supervisée (vs supervisée) Métriques : dissemblance, dissimilarité, distance et autres Inerties inter et intra-classes

Méthodes hiérarchiques

Classification Ascendante Hiérarchique Classification Descendante Hiérarchique

Méthodes de partitionnement

Centres mobiles K-means Nuées dynamiques Formes fortes

Méthode basée sur la densité (dbscan)

Les cas pratiques seront traités sous R.


Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.