Classification supervisée : analyse discriminante, régression logistique et arbres avec R

Objectifs de la formation

Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.

Objectifs de la formation

Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.

Classification supervisée : analyse discriminante, régression logistique et arbres avec R

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
Connaissances de base du logiciel R (formation R initiation).

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
Connaissances de base du logiciel R (formation R initiation).

Public visé

Data analysts, chargés d’études statistiques, data scientists

Public visé

Data analysts, chargés d’études statistiques, data scientists

Programme détaillé

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée (3h)

Cadre statistique
Critères de performance
Approche scoring

Analyse discriminante linéaire (3h)

Approche descriptive
Approche prédictive
Analyse discriminante quadratique
Applications sur cas pratiques

Régression logistique (6h)

Présentation du modèle
Estimation des paramètres et tests
Sélection de modèle
Introduction aux méthodes pénalisées (ridge et lasso)
Applications sur cas pratiques

Arbres (6h)

Méthodologie CART (arbres de décision)
Agrégation (bagging) d’arbres : forêts aléatoires
Applications sur cas pratiques

Programme détaillé

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée (3h)

Cadre statistique
Critères de performance
Approche scoring

Analyse discriminante linéaire (3h)

Approche descriptive
Approche prédictive
Analyse discriminante quadratique
Applications sur cas pratiques

Régression logistique (6h)

Présentation du modèle
Estimation des paramètres et tests
Sélection de modèle
Introduction aux méthodes pénalisées (ridge et lasso)
Applications sur cas pratiques

Arbres (6h)

Méthodologie CART (arbres de décision)
Agrégation (bagging) d’arbres : forêts aléatoires
Applications sur cas pratiques

Teaser : principaux packages R utilisés en classification supervisée

Voici quelques-uns des principaux packages R utilisés pour réaliser de la classification supervisée (analyse discrimante, régressions logistiques arbres…) :

MASS : Le package MASS propose des méthodes pour l’analyse discriminante linéaire et quadratique. Il comprend les fonctions lda() et qda() pour effectuer respectivement l’analyse discriminante linéaire et quadratique.
nnet : Le package nnet permet de construire des réseaux de neurones artificiels pour la classification supervisée. La fonction nnet() permet de créer un modèle de réseau de neurones en spécifiant le nombre de couches et les fonctions d’activation.
glmnet : Le package glmnet est utilisé pour réaliser des régressions logistiques pénalisées et des régressions élastiques net. Il fournit une implémentation efficace des modèles de régression avec régularisation.
randomForest : Le package randomForest est utilisé pour construire des modèles de forêts aléatoires, une technique ensembliste basée sur les arbres de décision. Il offre une grande flexibilité et une grande précision pour la classification.
rpart : Le package rpart permet de construire des arbres de décision pour la classification supervisée. La fonction rpart() crée un arbre de décision en utilisant l’algorithme de partitionnement récursif.
caret : Le package caret (Classification And REgression Training) fournit une interface unifiée pour l’entraînement et l’évaluation de nombreux modèles de classification supervisée. Il offre une grande variété de méthodes et d’outils pour la sélection de modèles, la validation croisée et la préparation des données.
e1071 : Le package e1071 propose plusieurs méthodes pour la classification supervisée, y compris les machines à vecteurs de support (SVM) et les classificateurs naïfs de Bayes. Il offre également des fonctionnalités pour le prétraitement des données et la sélection de variables.

Ces packages sont souvent utilisés en combinaison avec d’autres packages R pour réaliser des tâches spécifiques d’analyse des données. Votre formateur vous aidera à acquérir de la pratique sur l’ensemble de ces outils.

Teaser : principaux packages R utilisés en classification supervisée

Voici quelques-uns des principaux packages R utilisés pour réaliser de la classification supervisée (analyse discrimante, régressions logistiques arbres…) :

MASS : Le package MASS propose des méthodes pour l’analyse discriminante linéaire et quadratique. Il comprend les fonctions lda() et qda() pour effectuer respectivement l’analyse discriminante linéaire et quadratique.
nnet : Le package nnet permet de construire des réseaux de neurones artificiels pour la classification supervisée. La fonction nnet() permet de créer un modèle de réseau de neurones en spécifiant le nombre de couches et les fonctions d’activation.
glmnet : Le package glmnet est utilisé pour réaliser des régressions logistiques pénalisées et des régressions élastiques net. Il fournit une implémentation efficace des modèles de régression avec régularisation.
randomForest : Le package randomForest est utilisé pour construire des modèles de forêts aléatoires, une technique ensembliste basée sur les arbres de décision. Il offre une grande flexibilité et une grande précision pour la classification.
rpart : Le package rpart permet de construire des arbres de décision pour la classification supervisée. La fonction rpart() crée un arbre de décision en utilisant l’algorithme de partitionnement récursif.
caret : Le package caret (Classification And REgression Training) fournit une interface unifiée pour l’entraînement et l’évaluation de nombreux modèles de classification supervisée. Il offre une grande variété de méthodes et d’outils pour la sélection de modèles, la validation croisée et la préparation des données.
e1071 : Le package e1071 propose plusieurs méthodes pour la classification supervisée, y compris les machines à vecteurs de support (SVM) et les classificateurs naïfs de Bayes. Il offre également des fonctionnalités pour le prétraitement des données et la sélection de variables.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes