MLOps : principes, mise en œuvre et pratique

Objectifs de la formation

Connaitre et comprendre les principes du MLOps
Identifier ses outils
Préparer sa mise en place dans son organisation
Le mettre en œuvre sur un cas pratique

Connaitre et comprendre les principes du MLOps
Identifier ses outils
Préparer sa mise en place dans son organisation
Le mettre en œuvre sur un cas pratique

MLOps : principes, mise en œuvre et pratique

Prérequis

Pratique de Python dans le cadre de la data science (formation Python pour la data science), connaissance des bases de données

Prérequis

Pratique de Python dans le cadre de la data science (formation Python pour la data science), connaissance des bases de données

Public visé

Data scientists et data engineers confirmés

Public visé

Data scientists et data engineers confirmés

Programme détaillé

Panorama & compréhension détaillée (1 journée)

Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps
- Industrialisation de la mise en production (automatisation, agilité)
- Cycle de vie des modèles (du lab à la prod, performance, réentraînement)
Parallèle entre le développement logiciel et le développement de projets data
Rappel des principes DevOps et leur traduction pour les projets de data science
Revue détaillée des étapes d’un processus type de MLOps
- Objectifs de chaque étape
- Impacts techniques
- Gouvernance
Panorama des solutions de MLOps
- En open source (ex. : mlFlow, kubeflow)
- Dans les logiciels propriétaires (ex. : Dataiku DSS, neptune.ai)
- Chez les cloud providers (AWS, Azure, GCP)
- Pour Python, pour R
- Pour des modèles de Machine learning, pour des modèles de Deep learning
Mise en place de processus MLOps
- Revue d’une démarche type
- Etude de cas en atelier (informations collectées préalablement auprès des participants)

Pratique et mise en œuvre dans un environnement dédié et créé dans le cloud par nos soins(2 journées)

Elaboration d’un modèle en phase de recherche avec optimisation (pratique de la gestion des expériences)
Préparation d’un environnement d’industrialisation
Déploiement d’un modèle
Suivi de la performance du modèle : simulation d’une baisse de performance / d’un drift des données en entrée
Itération de mise en production d’une nouvelle version

Cette mise en pratique se fera avec des outils choisis conjointement lors de la préparation de la formation (ex. : Python + mlflow)

Programme détaillé

Panorama & compréhension détaillée (1 journée)

Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps
- Industrialisation de la mise en production (automatisation, agilité)
- Cycle de vie des modèles (du lab à la prod, performance, réentraînement)
Parallèle entre le développement logiciel et le développement de projets data
Rappel des principes DevOps et leur traduction pour les projets de data science
Revue détaillée des étapes d’un processus type de MLOps
- Objectifs de chaque étape
- Impacts techniques
- Gouvernance
Panorama des solutions de MLOps
- En open source (ex. : mlFlow, kubeflow)
- Dans les logiciels propriétaires (ex. : Dataiku DSS, neptune.ai)
- Chez les cloud providers (AWS, Azure, GCP)
- Pour Python, pour R
- Pour des modèles de Machine learning, pour des modèles de Deep learning
Mise en place de processus MLOps
- Revue d’une démarche type
- Etude de cas en atelier (informations collectées préalablement auprès des participants)

Pratique et mise en œuvre dans un environnement dédié et créé dans le cloud par nos soins(2 journées)

Elaboration d’un modèle en phase de recherche avec optimisation (pratique de la gestion des expériences)
Préparation d’un environnement d’industrialisation
Déploiement d’un modèle
Suivi de la performance du modèle : simulation d’une baisse de performance / d’un drift des données en entrée
Itération de mise en production d’une nouvelle version

Cette mise en pratique se fera avec des outils choisis conjointement lors de la préparation de la formation (ex. : Python + mlflow)

Quels sont les principaux outils utilisés en MLOps ?

Il existe plusieurs outils utilisés pour le MLOps, qui permettent de mettre en pratique les principes et les méthodes du DevOps dans le domaine de l’apprentissage automatique (machine learning). En voici une liste non exhaustive :

Outils de gestion des versions et de suivi

Git : Git est un système de contrôle de version largement utilisé pour le suivi des modifications du code source, des données et des modèles de machine learning.
GitLab, GitHub, Bitbucket : Ces plates-formes d’hébergement de code offrent des fonctionnalités avancées de gestion des versions, de collaboration et d’intégration continue.
DVC (Data Version Control) : DVC est un outil spécifiquement conçu pour gérer les versions des ensembles de données, en intégrant le suivi des données avec Git.

Outils de déploiement et d’orchestration

Docker : Docker est une plate-forme de conteneurisation qui permet de créer des environnements isolés pour les applications de machine learning, facilitant le déploiement et la portabilité.
Kubernetes : Kubernetes est un système d’orchestration de conteneurs qui permet de gérer et de scaler les déploiements de modèles de machine learning de manière automatisée et efficace.
TensorFlow Serving : TensorFlow Serving est un outil spécifique à TensorFlow qui permet de déployer des modèles TensorFlow dans des environnements de production.

Outils de gestion des pipelines de données et des workflows

Apache Airflow : Airflow est une plate-forme de gestion des workflows qui permet de planifier, de coordonner et de monitorer les pipelines de données et les workflows de machine learning.
Apache Beam : Beam est un modèle et une bibliothèque de traitement unifié qui permet de construire des pipelines de traitement des données, adaptés pour le batch et le streaming, et compatible avec divers outils d’exécution (comme Apache Spark ou Google Dataflow).
MLflow : MLflow est une plate-forme open-source pour gérer le cycle de vie des modèles de machine learning, incluant le suivi des expériences, la gestion des versions des modèles et le déploiement.

Outils de surveillance et de journalisation

Prometheus : Prometheus est un système de monitoring et de métriques qui permet de collecter et de stocker des données de performance sur les modèles en production.
Grafana : Grafana est une plate-forme de visualisation de données qui permet de créer des tableaux de bord et des visualisations pour surveiller et analyser les performances des modèles de machine learning.

Quels sont les principaux outils utilisés en MLOps ?

Outils de gestion des versions et de suivi

Git : Git est un système de contrôle de version largement utilisé pour le suivi des modifications du code source, des données et des modèles de machine learning.
GitLab, GitHub, Bitbucket : Ces plates-formes d’hébergement de code offrent des fonctionnalités avancées de gestion des versions, de collaboration et d’intégration continue.
DVC (Data Version Control) : DVC est un outil spécifiquement conçu pour gérer les versions des ensembles de données, en intégrant le suivi des données avec Git.

Outils de déploiement et d’orchestration

Docker : Docker est une plate-forme de conteneurisation qui permet de créer des environnements isolés pour les applications de machine learning, facilitant le déploiement et la portabilité.
Kubernetes : Kubernetes est un système d’orchestration de conteneurs qui permet de gérer et de scaler les déploiements de modèles de machine learning de manière automatisée et efficace.
TensorFlow Serving : TensorFlow Serving est un outil spécifique à TensorFlow qui permet de déployer des modèles TensorFlow dans des environnements de production.

Outils de gestion des pipelines de données et des workflows

Apache Airflow : Airflow est une plate-forme de gestion des workflows qui permet de planifier, de coordonner et de monitorer les pipelines de données et les workflows de machine learning.
Apache Beam : Beam est un modèle et une bibliothèque de traitement unifié qui permet de construire des pipelines de traitement des données, adaptés pour le batch et le streaming, et compatible avec divers outils d’exécution (comme Apache Spark ou Google Dataflow).
MLflow : MLflow est une plate-forme open-source pour gérer le cycle de vie des modèles de machine learning, incluant le suivi des expériences, la gestion des versions des modèles et le déploiement.

Outils de surveillance et de journalisation

Prometheus : Prometheus est un système de monitoring et de métriques qui permet de collecter et de stocker des données de performance sur les modèles en production.
Grafana : Grafana est une plate-forme de visualisation de données qui permet de créer des tableaux de bord et des visualisations pour surveiller et analyser les performances des modèles de machine learning.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Expérimentation
Applications pratiques sur ordinateur
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Suivi pédagogique individualisé
Temps de questions / réponses
Construction de projet

Méthodes pédagogiques

Méthode expositive
Méthode démonstrative
Méthode interrogative
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes