Les fondamentaux du Machine learning avec Python NEW

 
  2 jours       1530       Avancé    
  Prochaine session
3 et 4 juin 2024
Formation langage Python
Objectifs de la formation
  • Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
  • Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
  • Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.
Les fondamentaux du Machine learning avec Python
Prérequis

Public visé

Data analysts, data scientists


Programme détaillé

La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.

Bases du machine learning

  • Apprentissage supervisé vs non supervisé
  • Régression vs classification supervisée
  • Coût (perte) et risque (erreur de généralisation)
  • Biais-variance d’un prédicteur
  • Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)

Modèle linéaire généralisé - GLM

  • Régression : régression linéaire
  • Classification supervisée : régression logistique
  • Applications sur cas pratiques

Régression régularisée

  • Ridge
  • LASSO
  • Elasticnet
  • Applications sur cas pratiques

Méthodes d’arbres

  • Arbres de régression et de décision (CART)
  • Introduction aux random forests
  • Applications sur cas pratiques

Les différentes bibliothèques Python pour le machine learning

 

Python dispose d’une multitude de bibliothèques populaires et puissantes pour le machine learning. Voici quelques-unes des bibliothèques les plus largement utilisées dans l’écosystème Python (liste non exhaustive !) :

  • scikit-learn : Scikit-learn est une bibliothèque incontournable pour le machine learning en Python. Elle propose une large gamme d’algorithmes de classification, de régression, de regroupement (clustering), de détection d’anomalies, de réduction de dimensionnalité, etc. Elle offre également des outils pour la préparation des données, la validation croisée, l’optimisation des hyperparamètres et l’évaluation des modèles.

  • TensorFlow : TensorFlow est une bibliothèque d’apprentissage automatique développée par Google. Elle permet de créer et de former des réseaux de neurones profonds, en mettant l’accent sur l’apprentissage en profondeur (deep learning). TensorFlow offre une grande flexibilité pour la construction et le déploiement de modèles d’apprentissage automatique sur différentes plates-formes.

  • Keras : Keras est une bibliothèque d’apprentissage en profondeur haut niveau, conçue pour être conviviale et intuitive. Elle fournit une interface simple pour la construction de réseaux de neurones profonds et s’intègre bien avec TensorFlow. Keras est appréciée pour sa facilité d’utilisation et sa flexibilité.

  • PyTorch : PyTorch est une autre bibliothèque d’apprentissage automatique très populaire, axée sur l’apprentissage en profondeur. Elle est appréciée pour sa flexibilité, sa facilité d’utilisation et son écosystème en pleine expansion. PyTorch offre une approche dynamique du graphique computationnel et est largement utilisée dans la recherche en intelligence artificielle.

  • NumPy : NumPy est une bibliothèque fondamentale pour le calcul numérique en Python. Elle fournit des structures de données efficaces pour la manipulation de tableaux multidimensionnels et offre des fonctionnalités mathématiques avancées. NumPy est souvent utilisée en conjonction avec d’autres bibliothèques, telles que scikit-learn et TensorFlow, pour le prétraitement des données et la manipulation des tenseurs.

  • Pandas : Pandas est une bibliothèque populaire pour la manipulation et l’analyse de données. Elle offre des structures de données flexibles (notamment les DataFrames) pour travailler avec des données tabulaires. Pandas facilite le chargement, le nettoyage, la transformation et l’exploration des données, ce qui est essentiel dans le processus de préparation des données pour le machine learning.

  • XGBoost : XGBoost est une bibliothèque de boosting de gradient extrêmement performante. Elle met en œuvre l’algorithme de gradient boosting qui est très efficace pour la création de modèles de classification et de régression. XGBoost est connue pour sa précision, sa vitesse et sa capacité à gérer de grandes quantités de données.

  • Theano : Theano est une bibliothèque open-source de machine learning pour Python qui permet de créer et de former des modèles de réseaux de neurones pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond. Elle offre une grande flexibilité dans la création de modèles de réseaux de neurones et est particulièrement utile pour les tâches de calcul intensif.

Il existe de nombreuses autres bibliothèques Python pour le machine learning, comme Caffe, H2O, Chainer, etc.