Generative Computer Vision
Vision par ordinateur générative · MDSI · 42h
Présentation
Module créé en 2024–2025, à la pointe des techniques de vision générative : GANs, diffusion models, vision-language models (CLIP, DALL-E, Stable Diffusion, Midjourney-like architectures).
S’inscrit dans le programme stratégique Alternance BA — Business Analytics oriented to Generative AI (partenariat ESB / Jems Group) dont je suis Co-Responsable depuis 2024.
Espace Blackboard
Espace(s) cours sur Blackboard ESB :
Acquis d’apprentissage
- AA1 — Maîtriser les fondamentaux de la vision par ordinateur (CNN, segmentation, détection)
- AA2 — Comprendre les Autoencodeurs et Variational Autoencoders (VAE)
- AA3 — Implémenter des Generative Adversarial Networks (GAN, DCGAN, StyleGAN)
- AA4 — Comprendre les diffusion models (DDPM, Stable Diffusion)
- AA5 — Manipuler les modèles vision-language (CLIP, BLIP)
- AA6 — Générer des images à partir de texte (text-to-image)
- AA7 — Évaluer les modèles génératifs (FID, IS, perceptual metrics)
- AA8 — Considérations éthiques et deepfakes
Supports pédagogiques
| Type | Description | Lien |
|---|---|---|
| Polycopié | Cours book | |
| Slides | Beamer Metropolis 16:9 | |
| TDs | Énoncés + corrections | |
| TPs Python | PyTorch, HuggingFace Diffusers, GANs from scratch | PDF + code |
| Projet | Pipeline complet text-to-image personnalisé | Sujet |
| Repository | Code source | GitHub |
Plan détaillé
- Rappels CV : CNN, ResNet, Vision Transformers (ViT)
- Autoencodeurs : encodage, décodage, débruitage
- VAE : reparametrization trick, KL divergence
- GANs : générateur, discriminateur, équilibre de Nash
- Architectures avancées : DCGAN, Pix2Pix, CycleGAN, StyleGAN
- Diffusion models : forward/reverse process, DDPM, DDIM
- Stable Diffusion : latent diffusion, U-Net conditionnel
- Vision-Language Models : CLIP, BLIP, contrastive learning
- Text-to-image : DALL-E, Imagen, Stable Diffusion
- Applications : transfer de style, super-résolution, inpainting
Outils mobilisés
torch · diffusers (HuggingFace) · transformers · clip · accelerate opencv · pillow · matplotlib · wandb
Liens avec mes activités
- Co-Responsable Alternance BA-GenAI (ESB × Jems Group, depuis 2024)
- Head of Research Team AI4U (Esprit Tech, depuis 2023) — applications GenAI dans l’enseignement
- AI Instructor (Training of Trainers, depuis 2023) — sessions Generative AI
Prolongements
Module phare du virage Generative AI à ESB, complémentaire de NLP (générateurs de texte) et Deep Learning.