Méthodes avancées de Data Mining

 
  Toutes les formations  Data science
  2 jours       1420       Avancé    
Objectifs

Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).

Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.


Prérequis

Notions statistiques de base, méthodes de discrimination usuelles (régression logistique, arbres de décision), régression linéaire.


Contenu

La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.

Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.

Statistique, apprentissage et data mining

  • Définitions, positionnement
  • Principales applications
  • Panorama des méthodes et de l’offre logicielle
  • Choix d’une méthode et ajustement des paramètres

Méthodes à noyaux, SVM et SVR

  • Support Vector Machines pour la discrimination binaire ou multi-classes
  • Support Vector Regression pour la régression
  • Ajustement des paramètres

Méthodes d’agrégation et bootstrap

  • Agrégation de règles de prédiction : intérêt
  • Principe du bootstrap
  • Méthodes de boosting (Adaboost et logitboost)
  • Méthodes de bagging, forêts aléatoires

Modalités pédagogiques

Afin de mobiliser les participants, de multiplier les échanges et de faciliter l’assimilation des connaissances, cette formation alterne exposés théoriques et applications pratiques / cas concrets / travaux sur ordinateur.