Comprendre et adapter un Large Vision Model (LVM)

Objectifs de la formation

Comprendre les principes de l’analyse d’images grâce aux modèles de fondation
Savoir utiliser un modèle de fondation
Adapter un modèle de fondation pour les images

Comprendre les principes de l’analyse d’images grâce aux modèles de fondation
Savoir utiliser un modèle de fondation
Adapter un modèle de fondation pour les images

Comprendre et adapter un Large Vision Model (LVM)

Prérequis

Le contenu des formations Python intermédiaire et Les fondamentaux du Machine learning avec Python ou éventuellement avec R doit être maîtrisé.

Prérequis

Le contenu des formations Python intermédiaire et Les fondamentaux du Machine learning avec Python ou éventuellement avec R doit être maîtrisé.

Public visé

Développeurs, data scientists, ingénieurs, chefs de projet

Public visé

Développeurs, data scientists, ingénieurs, chefs de projet

Programme détaillé

Après une présentation des principaux concepts, la formation permet d’acquérir les bonnes pratiques pour analyser les images à l’aide d’un large spectre de méthodes. La mise en pratique s’effectuera sur le cluster de calculs de l’ENSAE.

JOUR 1 : FONDAMENTAUX ET RÉUTILISATION DES MODÈLES DE CLASSIFICATION (6h)

Introduction au Deep Learning pour la Vision (2h)
- Panorama du Computer Vision
- Les grandes tâches (classification, segmentation, détection, génération)
- Évolution des approches : du CNN au transformer
- Présentation des grands modèles open-source (CLIP, SAM, DINO, etc.)
- Tour d’horizon des principaux frameworks et hubs de modèles (PyTorch Hub, Hugging Face, Torchvision, OpenMMLab…)
Architecture des modèles de vision (2h)
- Rappels sur les réseaux convolutionnels (très synthétique)
- Introduction aux Vision Transformers
- La notion de patch
- Le mécanisme d’attention et la multi-head attention
- Différences et complémentarités avec les CNN
TP : Réutiliser un modèle pré-entraîné pour la classification (2h)
- Chargement et test de modèles (Hugging Face)
- Ajout de tête de classification
- Comparaison de performances avec et sans fine-tuning
- Exploration de modules pour améliorer la méthode (ex. data augmentation, dropout, scheduler, etc. sans rentrer dans les détails théoriques)

JOUR 2 : SEGMENTATION, DÉTECTION D’OBJETS ET FONDATIONS DES MODÈLES AUTO-SUPERVISÉS (6h)

Segmentation (2h)
- Présentation des principales approches modernes (U-Net, Mask R-CNN, SAM)
- Comprendre la logique des têtes de segmentation
TP : ajouter une tête de segmentation à un modèle pré-entraîné (1h)
Détection d’objet. TP avec YOLOv8 (1h)
Au-delà du supervisé : introduction aux modèles de fondation visuels (2h)
- Présentation conceptuelle du self-supervised learning
- Masked Image Modeling (MAE, iBOT, etc.)
- Contrastive learning (SimCLR, DINO, CLIP)
- Comment ces approches alimentent les grands modèles de vision modernes
- Liens avec les usages concrets (feature extraction, adaptation de modèles, multi-modalité)

Programme détaillé

JOUR 1 : FONDAMENTAUX ET RÉUTILISATION DES MODÈLES DE CLASSIFICATION (6h)

Introduction au Deep Learning pour la Vision (2h)
- Panorama du Computer Vision
- Les grandes tâches (classification, segmentation, détection, génération)
- Évolution des approches : du CNN au transformer
- Présentation des grands modèles open-source (CLIP, SAM, DINO, etc.)
- Tour d’horizon des principaux frameworks et hubs de modèles (PyTorch Hub, Hugging Face, Torchvision, OpenMMLab…)
Architecture des modèles de vision (2h)
- Rappels sur les réseaux convolutionnels (très synthétique)
- Introduction aux Vision Transformers
- La notion de patch
- Le mécanisme d’attention et la multi-head attention
- Différences et complémentarités avec les CNN
TP : Réutiliser un modèle pré-entraîné pour la classification (2h)
- Chargement et test de modèles (Hugging Face)
- Ajout de tête de classification
- Comparaison de performances avec et sans fine-tuning
- Exploration de modules pour améliorer la méthode (ex. data augmentation, dropout, scheduler, etc. sans rentrer dans les détails théoriques)

JOUR 2 : SEGMENTATION, DÉTECTION D’OBJETS ET FONDATIONS DES MODÈLES AUTO-SUPERVISÉS (6h)

Segmentation (2h)
- Présentation des principales approches modernes (U-Net, Mask R-CNN, SAM)
- Comprendre la logique des têtes de segmentation
TP : ajouter une tête de segmentation à un modèle pré-entraîné (1h)
Détection d’objet. TP avec YOLOv8 (1h)
Au-delà du supervisé : introduction aux modèles de fondation visuels (2h)
- Présentation conceptuelle du self-supervised learning
- Masked Image Modeling (MAE, iBOT, etc.)
- Contrastive learning (SimCLR, DINO, CLIP)
- Comment ces approches alimentent les grands modèles de vision modernes
- Liens avec les usages concrets (feature extraction, adaptation de modèles, multi-modalité)

Qu'est ce qu'un Large Vision Model ?

Un Large Vision Model (LVM), ou grand modèle visuel, est une classe de modèles d’intelligence artificielle spécifiquement conçus pour traiter et analyser des données visuelles, telles que des images et des vidéos, à une échelle et avec une précision élevées.

Les LVMs sont souvent formés sur de vastes ensembles de données contenant des millions voire des milliards d’images ou de vidéos. Cela permet au modèle d’apprendre une grande variété de caractéristiques visuelles et d’améliorer ses capacités de généralisation. Ces modèles utilisent des architectures de réseau de neurones avancées, comme les réseaux convolutionnels (CNN), les réseaux de neurones profonds (DNN) et les transformateurs visuels (ViT). Ces architectures permettent au modèle de capturer des caractéristiques complexes et des relations spatiales dans les données visuelles.

En raison de leur taille et de la complexité de leur formation, les LVMs nécessitent une puissance de calcul considérable, souvent fournie par des clusters de GPU ou d’autres matériels spécialisés. Les LVMs sont utilisés dans une multitude d’applications, notamment la reconnaissance d’objets, la classification d’images, la segmentation sémantique, la génération d’images, la vision par ordinateur pour les véhicules autonomes, et bien d’autres domaines.

Souvent, les LVMs sont d’abord pré-entraînés sur des ensembles de données génériques, puis affinés (fine-tuned) sur des ensembles de données spécifiques pour des tâches particulières. Cela permet d’utiliser le modèle de base pour de nombreuses applications différentes avec des ajustements mineurs.

Qu'est ce qu'un Large Vision Model ?

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Applications pratiques sur ordinateur
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses
Exercices, quiz, forum etc.

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes