Les fondamentaux du Machine learning avec Python

Toutes les formations Data science & IA

3 jours 2200 Avancé

Prochaine session
27, 28, 29 mai 2026

Prochaines sessions et informations pratiques

Objectifs de la formation

Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.

Objectifs de la formation

Comprendre les principes du machine learning : régression vs classification supervisée, biais-variance, sur-apprentissage, validation croisée…
Connaître et savoir mettre en œuvre les méthodes de base en régression et classification supervisée : modèle linéaire généralisé (GLM), régression régularisée
Appréhender les méthodes d’arbres (CART & random forest) et les mettre en pratique.

Les fondamentaux du Machine learning avec Python

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python).
Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
Connaissances intermédiaires de Python (formation Python intermédiaire).

Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec Python).
Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
Connaissances intermédiaires de Python (formation Python intermédiaire).

Public visé

Data analysts, data scientists

Public visé

Data analysts, data scientists

Programme détaillé

La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.

Bases du machine learning (3h)

Apprentissage supervisé vs non supervisé
Régression vs classification supervisée
Coût (perte) et risque (erreur de généralisation)
Biais-variance d’un prédicteur
Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)

Rappel sur le modèle linéaire (3h)

Régression : régression linéaire
Choix des variables
Applications sur cas pratiques

Codage et interprétation des variables qualitatives (2h)

Régression régularisée (4h)

Ridge
LASSO
Elasticnet
Comparaison des méthodes par validation croisée
Applications sur cas pratiques

Classification supervisée (3h)

Régression logistique
Critères d’évaluation : précision, recall…
Applications sur cas pratiques
Classification supervisée pénalisé
Comparaison de méthodes par validation croisée

Agrégation d’arbres (3h)

Arbres de régression et de décision (CART)
Introduction aux random forests
Applications sur cas pratiques

Programme détaillé

La formation présente les concepts de base en machine learning, ainsi que les méthodes de base en régression et classification supervisée.

Bases du machine learning (3h)

Apprentissage supervisé vs non supervisé
Régression vs classification supervisée
Coût (perte) et risque (erreur de généralisation)
Biais-variance d’un prédicteur
Sur-apprentissage et palliatifs (apprentissage/test, validation croisée)

Rappel sur le modèle linéaire (3h)

Régression : régression linéaire
Choix des variables
Applications sur cas pratiques

Codage et interprétation des variables qualitatives (2h)

Régression régularisée (4h)

Ridge
LASSO
Elasticnet
Comparaison des méthodes par validation croisée
Applications sur cas pratiques

Classification supervisée (3h)

Régression logistique
Critères d’évaluation : précision, recall…
Applications sur cas pratiques
Classification supervisée pénalisé
Comparaison de méthodes par validation croisée

Agrégation d’arbres (3h)

Arbres de régression et de décision (CART)
Introduction aux random forests
Applications sur cas pratiques

Les différentes bibliothèques Python pour le machine learning

Python dispose d’une multitude de bibliothèques populaires et puissantes pour le machine learning. Voici quelques-unes des bibliothèques les plus largement utilisées dans l’écosystème Python (liste non exhaustive !) :

scikit-learn : Scikit-learn est une bibliothèque incontournable pour le machine learning en Python. Elle propose une large gamme d’algorithmes de classification, de régression, de regroupement (clustering), de détection d’anomalies, de réduction de dimensionnalité, etc. Elle offre également des outils pour la préparation des données, la validation croisée, l’optimisation des hyperparamètres et l’évaluation des modèles.
TensorFlow : TensorFlow est une bibliothèque d’apprentissage automatique développée par Google. Elle permet de créer et de former des réseaux de neurones profonds, en mettant l’accent sur l’apprentissage en profondeur (deep learning). TensorFlow offre une grande flexibilité pour la construction et le déploiement de modèles d’apprentissage automatique sur différentes plates-formes.
Keras : Keras est une bibliothèque d’apprentissage en profondeur haut niveau, conçue pour être conviviale et intuitive. Elle fournit une interface simple pour la construction de réseaux de neurones profonds et s’intègre bien avec TensorFlow. Keras est appréciée pour sa facilité d’utilisation et sa flexibilité.
PyTorch : PyTorch est une autre bibliothèque d’apprentissage automatique très populaire, axée sur l’apprentissage en profondeur. Elle est appréciée pour sa flexibilité, sa facilité d’utilisation et son écosystème en pleine expansion. PyTorch offre une approche dynamique du graphique computationnel et est largement utilisée dans la recherche en intelligence artificielle.
NumPy : NumPy est une bibliothèque fondamentale pour le calcul numérique en Python. Elle fournit des structures de données efficaces pour la manipulation de tableaux multidimensionnels et offre des fonctionnalités mathématiques avancées. NumPy est souvent utilisée en conjonction avec d’autres bibliothèques, telles que scikit-learn et TensorFlow, pour le prétraitement des données et la manipulation des tenseurs.
Pandas : Pandas est une bibliothèque populaire pour la manipulation et l’analyse de données. Elle offre des structures de données flexibles (notamment les DataFrames) pour travailler avec des données tabulaires. Pandas facilite le chargement, le nettoyage, la transformation et l’exploration des données, ce qui est essentiel dans le processus de préparation des données pour le machine learning.
XGBoost : XGBoost est une bibliothèque de boosting de gradient extrêmement performante. Elle met en œuvre l’algorithme de gradient boosting qui est très efficace pour la création de modèles de classification et de régression. XGBoost est connue pour sa précision, sa vitesse et sa capacité à gérer de grandes quantités de données.
Theano : Theano est une bibliothèque open-source de machine learning pour Python qui permet de créer et de former des modèles de réseaux de neurones pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond. Elle offre une grande flexibilité dans la création de modèles de réseaux de neurones et est particulièrement utile pour les tâches de calcul intensif.

Il existe de nombreuses autres bibliothèques Python pour le machine learning, comme Caffe, H2O, Chainer, etc.

Les différentes bibliothèques Python pour le machine learning

scikit-learn : Scikit-learn est une bibliothèque incontournable pour le machine learning en Python. Elle propose une large gamme d’algorithmes de classification, de régression, de regroupement (clustering), de détection d’anomalies, de réduction de dimensionnalité, etc. Elle offre également des outils pour la préparation des données, la validation croisée, l’optimisation des hyperparamètres et l’évaluation des modèles.
TensorFlow : TensorFlow est une bibliothèque d’apprentissage automatique développée par Google. Elle permet de créer et de former des réseaux de neurones profonds, en mettant l’accent sur l’apprentissage en profondeur (deep learning). TensorFlow offre une grande flexibilité pour la construction et le déploiement de modèles d’apprentissage automatique sur différentes plates-formes.
Keras : Keras est une bibliothèque d’apprentissage en profondeur haut niveau, conçue pour être conviviale et intuitive. Elle fournit une interface simple pour la construction de réseaux de neurones profonds et s’intègre bien avec TensorFlow. Keras est appréciée pour sa facilité d’utilisation et sa flexibilité.
PyTorch : PyTorch est une autre bibliothèque d’apprentissage automatique très populaire, axée sur l’apprentissage en profondeur. Elle est appréciée pour sa flexibilité, sa facilité d’utilisation et son écosystème en pleine expansion. PyTorch offre une approche dynamique du graphique computationnel et est largement utilisée dans la recherche en intelligence artificielle.
NumPy : NumPy est une bibliothèque fondamentale pour le calcul numérique en Python. Elle fournit des structures de données efficaces pour la manipulation de tableaux multidimensionnels et offre des fonctionnalités mathématiques avancées. NumPy est souvent utilisée en conjonction avec d’autres bibliothèques, telles que scikit-learn et TensorFlow, pour le prétraitement des données et la manipulation des tenseurs.
Pandas : Pandas est une bibliothèque populaire pour la manipulation et l’analyse de données. Elle offre des structures de données flexibles (notamment les DataFrames) pour travailler avec des données tabulaires. Pandas facilite le chargement, le nettoyage, la transformation et l’exploration des données, ce qui est essentiel dans le processus de préparation des données pour le machine learning.
XGBoost : XGBoost est une bibliothèque de boosting de gradient extrêmement performante. Elle met en œuvre l’algorithme de gradient boosting qui est très efficace pour la création de modèles de classification et de régression. XGBoost est connue pour sa précision, sa vitesse et sa capacité à gérer de grandes quantités de données.
Theano : Theano est une bibliothèque open-source de machine learning pour Python qui permet de créer et de former des modèles de réseaux de neurones pour des tâches de classification, de régression et d’autres problèmes liés à l’apprentissage profond. Elle offre une grande flexibilité dans la création de modèles de réseaux de neurones et est particulièrement utile pour les tâches de calcul intensif.

Il existe de nombreuses autres bibliothèques Python pour le machine learning, comme Caffe, H2O, Chainer, etc.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique (RS). Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Depuis le 20 février 2026, la loi de finances pour 2026 (décret n° 2026-127()) a modifié les modalités selon lesquelles les titulaires peuvent mobiliser leurs droits sur Mon Compte Formation. Vous pouvez mobiliser désormais au maximum 1 500 € de vos droits CPF* pour suivre une formation qui prépare à une certification professionnelle inscrite au RS. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. (*) « Art. D. 6323-1 A. - Le plafond de droits mobilisables, inscrits sur le compte personnel de formation en application des articles L. 6323-11, L. 6323-27 et L. 6323-34 est fixé à : « Mille cinq cents euros pour les actions sanctionnées par des certifications et habilitations enregistrées dans le répertoire spécifique mentionné à l'article L. 6113-6 ». Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller France Travail validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur france-travail.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes