Classification supervisée : analyse discriminante, régression logistique et arbres avec Python
Prochaines sessions et informations pratiques
- Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
- Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
- Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
- Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
- Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
- Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances de base de Python (formation Python initiation).
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances de base de Python (formation Python initiation).
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.
Présentation du problème de la classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
- Applications sur cas pratiques
Régression logistique
- Présentation du modèle
- Estimation des paramètres et tests
- Sélection de modèle
- Introduction aux méthodes pénalisées (ridge et lasso)
- Applications sur cas pratiques
Arbres
- Méthodologie CART (arbres de décision)
- Agrégation (bagging) d’arbres : forêts aléatoires
- Applications sur cas pratiques
La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.
Présentation du problème de la classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
- Applications sur cas pratiques
Régression logistique
- Présentation du modèle
- Estimation des paramètres et tests
- Sélection de modèle
- Introduction aux méthodes pénalisées (ridge et lasso)
- Applications sur cas pratiques
Arbres
- Méthodologie CART (arbres de décision)
- Agrégation (bagging) d’arbres : forêts aléatoires
- Applications sur cas pratiques
Teaser : principales bibliothèques Python utilisées en classification supervisée
Voici une liste non exhaustive des bibliothèques Python que vous serez amené à utiliser pour réaliser de la classification supervisée (analyse discriminante, régressions logistiques, arbres…)
scikit-learn
: Scikit-learn est une bibliothèque très populaire en Python pour l’apprentissage automatique. Elle propose une large gamme d’algorithmes de classification supervisée, y compris l’analyse discriminante linéaire, les régressions logistiques, les arbres de décision, les forêts aléatoires, les machines à vecteurs de support (SVM), les réseaux de neurones, etc.statsmodels
: Statsmodels est une bibliothèque Python axée sur les statistiques et l’inférence statistique. Elle offre des fonctionnalités pour la régression logistique et d’autres modèles linéaires généralisés, y compris l’analyse discriminante.XGBoost
: XGBoost est une bibliothèque d’apprentissage automatique très performante pour la classification supervisée. Elle implémente l’algorithme de boosting extrême (Extreme Gradient Boosting) qui combine plusieurs modèles faibles pour améliorer les performances prédictives.LightGBM
: LightGBM est une autre bibliothèque d’apprentissage automatique basée sur le boosting. Elle est conçue pour être rapide et efficace, en particulier pour les ensembles de données de grande taille. Elle offre une bonne performance pour la classification supervisée.TensorFlow et Keras
: TensorFlow est une bibliothèque populaire pour l’apprentissage automatique et le calcul numérique en général. Keras, quant à lui, est une bibliothèque d’apprentissage en profondeur qui s’appuie sur TensorFlow. Ces bibliothèques permettent de créer des réseaux de neurones artificiels pour la classification supervisée.PyTorch
: PyTorch est une autre bibliothèque d’apprentissage en profondeur très utilisée en Python. Elle offre une flexibilité et une facilité d’utilisation pour la construction et l’entraînement de modèles de classification supervisée basés sur des réseaux de neurones.CatBoost
: CatBoost est une bibliothèque d’apprentissage automatique basée sur le boosting qui est optimisée pour traiter les données catégorielles. Elle offre de bonnes performances pour la classification supervisée et gère automatiquement le codage des variables catégorielles.
Teaser : principales bibliothèques Python utilisées en classification supervisée
Voici une liste non exhaustive des bibliothèques Python que vous serez amené à utiliser pour réaliser de la classification supervisée (analyse discriminante, régressions logistiques, arbres…)
scikit-learn
: Scikit-learn est une bibliothèque très populaire en Python pour l’apprentissage automatique. Elle propose une large gamme d’algorithmes de classification supervisée, y compris l’analyse discriminante linéaire, les régressions logistiques, les arbres de décision, les forêts aléatoires, les machines à vecteurs de support (SVM), les réseaux de neurones, etc.statsmodels
: Statsmodels est une bibliothèque Python axée sur les statistiques et l’inférence statistique. Elle offre des fonctionnalités pour la régression logistique et d’autres modèles linéaires généralisés, y compris l’analyse discriminante.XGBoost
: XGBoost est une bibliothèque d’apprentissage automatique très performante pour la classification supervisée. Elle implémente l’algorithme de boosting extrême (Extreme Gradient Boosting) qui combine plusieurs modèles faibles pour améliorer les performances prédictives.LightGBM
: LightGBM est une autre bibliothèque d’apprentissage automatique basée sur le boosting. Elle est conçue pour être rapide et efficace, en particulier pour les ensembles de données de grande taille. Elle offre une bonne performance pour la classification supervisée.TensorFlow et Keras
: TensorFlow est une bibliothèque populaire pour l’apprentissage automatique et le calcul numérique en général. Keras, quant à lui, est une bibliothèque d’apprentissage en profondeur qui s’appuie sur TensorFlow. Ces bibliothèques permettent de créer des réseaux de neurones artificiels pour la classification supervisée.PyTorch
: PyTorch est une autre bibliothèque d’apprentissage en profondeur très utilisée en Python. Elle offre une flexibilité et une facilité d’utilisation pour la construction et l’entraînement de modèles de classification supervisée basés sur des réseaux de neurones.CatBoost
: CatBoost est une bibliothèque d’apprentissage automatique basée sur le boosting qui est optimisée pour traiter les données catégorielles. Elle offre de bonnes performances pour la classification supervisée et gère automatiquement le codage des variables catégorielles.