Classification supervisée : analyse discriminante, régression logistique et arbres avec Python

 
  3 jours       1620       Avancé    
Nouvelle formation
Objectifs de la formation
  • Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
  • Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
  • Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.

Prérequis

Public visé

Data analysts, chargés d’études statistiques, data scientists


Programme détaillé

La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.

Présentation du problème de la classification supervisée

  • Cadre statistique
  • Critères de performance
  • Approche scoring

Analyse discriminante linéaire

  • Approche descriptive
  • Approche prédictive
  • Analyse discriminante quadratique
  • Applications sur cas pratiques

Régression logistique

  • Présentation du modèle
  • Estimation des paramètres et tests
  • Sélection de modèle
  • Introduction aux méthodes pénalisées (ridge et lasso)
  • Applications sur cas pratiques

Arbres

  • Méthodologie CART (arbres de décision)
  • Agrégation (bagging) d’arbres : forêts aléatoires
  • Applications sur cas pratiques

Teaser : principales bibliothèques Python utilisées en classification supervisée

 

Voici une liste non exhaustive des bibliothèques Python que vous serez amené à utiliser pour réaliser de la classification supervisée (analyse discriminante, régressions logistiques, arbres…)

  • scikit-learn : Scikit-learn est une bibliothèque très populaire en Python pour l’apprentissage automatique. Elle propose une large gamme d’algorithmes de classification supervisée, y compris l’analyse discriminante linéaire, les régressions logistiques, les arbres de décision, les forêts aléatoires, les machines à vecteurs de support (SVM), les réseaux de neurones, etc.

  • statsmodels : Statsmodels est une bibliothèque Python axée sur les statistiques et l’inférence statistique. Elle offre des fonctionnalités pour la régression logistique et d’autres modèles linéaires généralisés, y compris l’analyse discriminante.

  • XGBoost : XGBoost est une bibliothèque d’apprentissage automatique très performante pour la classification supervisée. Elle implémente l’algorithme de boosting extrême (Extreme Gradient Boosting) qui combine plusieurs modèles faibles pour améliorer les performances prédictives.

  • LightGBM : LightGBM est une autre bibliothèque d’apprentissage automatique basée sur le boosting. Elle est conçue pour être rapide et efficace, en particulier pour les ensembles de données de grande taille. Elle offre une bonne performance pour la classification supervisée.

  • TensorFlow et Keras : TensorFlow est une bibliothèque populaire pour l’apprentissage automatique et le calcul numérique en général. Keras, quant à lui, est une bibliothèque d’apprentissage en profondeur qui s’appuie sur TensorFlow. Ces bibliothèques permettent de créer des réseaux de neurones artificiels pour la classification supervisée.

  • PyTorch : PyTorch est une autre bibliothèque d’apprentissage en profondeur très utilisée en Python. Elle offre une flexibilité et une facilité d’utilisation pour la construction et l’entraînement de modèles de classification supervisée basés sur des réseaux de neurones.

  • CatBoost : CatBoost est une bibliothèque d’apprentissage automatique basée sur le boosting qui est optimisée pour traiter les données catégorielles. Elle offre de bonnes performances pour la classification supervisée et gère automatiquement le codage des variables catégorielles.