NLP — Natural Language Processing
Traitement du langage naturel · MDSI · 42h
Présentation
Module créé en 2022–2023, axé sur les techniques modernes de NLP (Transformers, attention, LLMs) tout en couvrant les fondamentaux classiques (tokenization, embeddings, modèles séquence-à-séquence).
Lié directement à mes activités d’AI Instructor (Training of Trainers Departement) où j’anime des sessions sur NLP, Transformers et LLM.
Espace Blackboard
Espace Blackboard ESB — création en cours pour ce module récent (intégration à la session 2026–2027). En attendant, les supports sont diffusés via le repository GitHub et les capsules YouTube référencées ci-dessous.
Acquis d’apprentissage
- AA1 — Tokenization, BPE, WordPiece
- AA2 — Embeddings : Word2Vec, GloVe, FastText, contextualisés
- AA3 — Modèles séquentiels classiques (RNN, LSTM, GRU pour texte)
- AA4 — Mécanisme d’attention et architecture Transformer
- AA5 — Modèles pré-entraînés : BERT, GPT, T5
- AA6 — Fine-tuning et prompt engineering
- AA7 — Tâches NLP : classification, NER, QA, résumé, traduction
- AA8 — Introduction aux Large Language Models (LLM)
Supports pédagogiques
| Type | Description | Lien |
|---|---|---|
| Fiche module | ECUE descriptive sheet (UEF210) | |
| Polycopié | Unified course (Chapter 1 + Chapter 2, 59 pages, ToC navigable) | |
| Slides | Beamer (39 frames, Madrid theme) | |
| TPs Python | 4 Jupyter notebooks (tokenization, BoW/TF-IDF, Word2Vec, evaluation) | Folder |
| TDs | Exercises within each chapter (5 per section) | Réservé aux étudiants |
| Repository | Source code + LaTeX | GitHub |
Plan détaillé
- Fondamentaux du langage : morphologie, syntaxe, sémantique
- Pré-traitement : tokenization, lemmatization, stop words
- Embeddings : one-hot, Word2Vec, GloVe, FastText
- Modèles séquentiels : RNN, LSTM, GRU pour texte
- Mécanisme d’attention : self-attention, multi-head attention
- Architecture Transformer : encodeur, décodeur, positional encoding
- Modèles pré-entraînés : BERT (encodeur), GPT (décodeur), T5 (seq2seq)
- Fine-tuning et adaptation : LoRA, PEFT
- Large Language Models (LLM) : prompting, RAG, alignement
- Applications : chatbots, résumé, traduction, recherche sémantique
Outils mobilisés
transformers (HuggingFace) · torch · tensorflow · spacy · nltk gensim · langchain · openai · tiktoken · sentencepiece
Liens avec mes activités de recherche
Recherche menée au sein de l’équipe AI4U (Artificial Intelligence 4 University), notamment :
- Génération automatique de contenus pédagogiques via LLM
- Évaluation augmentée par NLP
- Personnalisation de l’apprentissage par modèles séquentiels
Prolongements
Module qui s’articule avec Deep Learning (architectures) et Generative Computer Vision (Generative AI).