Comprendre et adapter un Large Vision Model (LVM)  Nouvelle formation

 
  2 jours       1700       Avancé    
  Prochaine session
16 et 17 février 2026

  Prochaines sessions et informations pratiques

Objectifs de la formation
  • Comprendre les principes de l’analyse d’images grâce aux modèles de fondation
  • Savoir utiliser un modèle de fondation
  • Adapter un modèle de fondation pour les images
Comprendre et adapter un Large Vision Model (LVM)
Prérequis

Le contenu des formations Python intermédiaire et Les fondamentaux du Machine learning avec Python ou éventuellement avec R doit être maîtrisé.


Public visé

Développeurs, data scientists, ingénieurs, chefs de projet


Programme détaillé

Après une présentation des principaux concepts, la formation permet d’acquérir les bonnes pratiques pour analyser les images à l’aide d’un large spectre de méthodes. La mise en pratique s’effectuera sur le cluster de calculs de l’ENSAE.

JOUR 1 : FONDAMENTAUX ET RÉUTILISATION DES MODÈLES DE CLASSIFICATION

  1. Introduction au Deep Learning pour la Vision (2h)

    • Panorama du Computer Vision
    • Les grandes tâches (classification, segmentation, détection, génération)
    • Évolution des approches : du CNN au transformer
    • Présentation des grands modèles open-source (CLIP, SAM, DINO, etc.)
    • Tour d’horizon des principaux frameworks et hubs de modèles (PyTorch Hub, Hugging Face, Torchvision, OpenMMLab…)
  2. Architecture des modèles de vision (2h)

    • Rappels sur les réseaux convolutionnels (très synthétique)
    • Introduction aux Vision Transformers
    • La notion de patch
    • Le mécanisme d’attention et la multi-head attention
    • Différences et complémentarités avec les CNN
  3. TP : Réutiliser un modèle pré-entraîné pour la classification (2h)

    • Chargement et test de modèles (Hugging Face)
    • Ajout de tête de classification
    • Comparaison de performances avec et sans fine-tuning
    • Exploration de modules pour améliorer la méthode (ex. data augmentation, dropout, scheduler, etc. sans rentrer dans les détails théoriques)

JOUR 2 : SEGMENTATION, DÉTECTION D’OBJETS ET FONDATIONS DES MODÈLES AUTO-SUPERVISÉS

  1. Segmentation (2h)

    • Présentation des principales approches modernes (U-Net, Mask R-CNN, SAM)
    • Comprendre la logique des têtes de segmentation
  2. TP : ajouter une tête de segmentation à un modèle pré-entraîné (1h)

  3. Détection d’objet. TP avec YOLOv8 (1h)

  4. Au-delà du supervisé : introduction aux modèles de fondation visuels (2h)

    • Présentation conceptuelle du self-supervised learning
    • Masked Image Modeling (MAE, iBOT, etc.)
    • Contrastive learning (SimCLR, DINO, CLIP)
    • Comment ces approches alimentent les grands modèles de vision modernes
    • Liens avec les usages concrets (feature extraction, adaptation de modèles, multi-modalité)

Qu'est ce qu'un Large Vision Model ?

 

Un Large Vision Model (LVM), ou grand modèle visuel, est une classe de modèles d’intelligence artificielle spécifiquement conçus pour traiter et analyser des données visuelles, telles que des images et des vidéos, à une échelle et avec une précision élevées.

Les LVMs sont souvent formés sur de vastes ensembles de données contenant des millions voire des milliards d’images ou de vidéos. Cela permet au modèle d’apprendre une grande variété de caractéristiques visuelles et d’améliorer ses capacités de généralisation. Ces modèles utilisent des architectures de réseau de neurones avancées, comme les réseaux convolutionnels (CNN), les réseaux de neurones profonds (DNN) et les transformateurs visuels (ViT). Ces architectures permettent au modèle de capturer des caractéristiques complexes et des relations spatiales dans les données visuelles.

En raison de leur taille et de la complexité de leur formation, les LVMs nécessitent une puissance de calcul considérable, souvent fournie par des clusters de GPU ou d’autres matériels spécialisés. Les LVMs sont utilisés dans une multitude d’applications, notamment la reconnaissance d’objets, la classification d’images, la segmentation sémantique, la génération d’images, la vision par ordinateur pour les véhicules autonomes, et bien d’autres domaines.

Souvent, les LVMs sont d’abord pré-entraînés sur des ensembles de données génériques, puis affinés (fine-tuned) sur des ensembles de données spécifiques pour des tâches particulières. Cela permet d’utiliser le modèle de base pour de nombreuses applications différentes avec des ajustements mineurs.