Machine learning : bagging, gradient boosting, SVM avec R

Objectifs de la formation

Connaître et savoir mettre en œuvre les méthodes d’agrégation en régression et classification supervisée : bagging (random forest) et gradient boosting
Connaître et savoir mettre en œuvre la méthode SVM en classification supervisée
Savoir gérer empiriquement le risque de sur-apprentissage

Objectifs de la formation

Connaître et savoir mettre en œuvre les méthodes d’agrégation en régression et classification supervisée : bagging (random forest) et gradient boosting
Connaître et savoir mettre en œuvre la méthode SVM en classification supervisée
Savoir gérer empiriquement le risque de sur-apprentissage

Machine learning : bagging, gradient boosting, SVM avec R

Prérequis

Connaissances de base en machine learning (formation Les fondamentaux du Machine learning avec R).
Connaissances intermédiaires du logiciel R (formation R intermédiaire).

Prérequis

Connaissances de base en machine learning (formation Les fondamentaux du Machine learning avec R).
Connaissances intermédiaires du logiciel R (formation R intermédiaire).

Public visé

Data analysts, data scientists

Public visé

Data analysts, data scientists

Programme détaillé

Rappels sur les bases du machine learning (1h)

Méthodes d’agrégation – bagging (3h)

Rappels sur les arbres de régression et de décision (CART)
Bagging
Random forest
Importance des variables
Applications sur cas pratiques

Méthodes d’agrégation – gradient boosting (3h)

Algorithme AdaBoost
Principe du gradient boosting
Quelques fonctions de coût classiques
Applications sur cas pratiques

SVM (3h)

Cas linéairement séparable
Ajout de variables ressort (slack variables)
Astuce du noyau
Applications sur cas pratiques

Introduction aux réseaux de neurones (2h)

Neurone formel
Perceptron multicouche (MLP)
Fonctions d’activation

Programme détaillé

Rappels sur les bases du machine learning (1h)

Méthodes d’agrégation – bagging (3h)

Rappels sur les arbres de régression et de décision (CART)
Bagging
Random forest
Importance des variables
Applications sur cas pratiques

Méthodes d’agrégation – gradient boosting (3h)

Algorithme AdaBoost
Principe du gradient boosting
Quelques fonctions de coût classiques
Applications sur cas pratiques

SVM (3h)

Cas linéairement séparable
Ajout de variables ressort (slack variables)
Astuce du noyau
Applications sur cas pratiques

Introduction aux réseaux de neurones (2h)

Neurone formel
Perceptron multicouche (MLP)
Fonctions d’activation

Les différents packages R pour le bagging, le gradient boosting et le SVM

En R, voici quelques-uns des packages populaires pour réaliser du bagging, du gradient boosting et du SVM :

Bagging

randomForest : Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, qui est une méthode de bagging utilisant des arbres de décision. Il est utilisé pour la classification et la régression.
adabag : Le package “adabag” propose des algorithmes de bagging adaptatif pour la classification. Il fournit des variantes de bagging comme Bagging with Adaptive Boosting (AdaBag), Bagging with Bayesian Adaptive Boosting (BayesBag), etc.

Gradient Boosting

xgboost : Le package “xgboost” implémente l’algorithme de gradient boosting extrêmement performant, connu pour sa rapidité et sa précision. Il est utilisé pour la classification et la régression.
gbm : Le package “gbm” fournit une implémentation de l’algorithme de gradient boosting généralisé pour la régression et la classification. Il permet de créer des modèles basés sur des arbres de décision.

SVM (Support Vector Machines)

e1071 : Le package “e1071” propose une implémentation des machines à vecteurs de support (SVM) pour la classification et la régression. Il fournit des fonctionnalités avancées pour le réglage des hyperparamètres et la personnalisation des modèles SVM.
LiblineaR : Le package “LiblineaR” fournit une interface R pour la bibliothèque Liblinear, qui implémente des SVM linéaires pour la classification et la régression.

Certains packages tels que randomForest et xgboost peuvent également être utilisés pour la classification et la régression, et pas seulement pour le bagging ou le gradient boosting.

Les différents packages R pour le bagging, le gradient boosting et le SVM

En R, voici quelques-uns des packages populaires pour réaliser du bagging, du gradient boosting et du SVM :

Bagging

randomForest : Le package “randomForest” met en œuvre l’algorithme de forêt aléatoire, qui est une méthode de bagging utilisant des arbres de décision. Il est utilisé pour la classification et la régression.
adabag : Le package “adabag” propose des algorithmes de bagging adaptatif pour la classification. Il fournit des variantes de bagging comme Bagging with Adaptive Boosting (AdaBag), Bagging with Bayesian Adaptive Boosting (BayesBag), etc.

Gradient Boosting

xgboost : Le package “xgboost” implémente l’algorithme de gradient boosting extrêmement performant, connu pour sa rapidité et sa précision. Il est utilisé pour la classification et la régression.
gbm : Le package “gbm” fournit une implémentation de l’algorithme de gradient boosting généralisé pour la régression et la classification. Il permet de créer des modèles basés sur des arbres de décision.

SVM (Support Vector Machines)

e1071 : Le package “e1071” propose une implémentation des machines à vecteurs de support (SVM) pour la classification et la régression. Il fournit des fonctionnalités avancées pour le réglage des hyperparamètres et la personnalisation des modèles SVM.
LiblineaR : Le package “LiblineaR” fournit une interface R pour la bibliothèque Liblinear, qui implémente des SVM linéaires pour la classification et la régression.

Certains packages tels que randomForest et xgboost peuvent également être utilisés pour la classification et la régression, et pas seulement pour le bagging ou le gradient boosting.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes