NLP — Natural Language Processing

Traitement du langage naturel · MDSI · 42h

Présentation

Module créé en 2022–2023, axé sur les techniques modernes de NLP (Transformers, attention, LLMs) tout en couvrant les fondamentaux classiques (tokenization, embeddings, modèles séquence-à-séquence).

Lié directement à mes activités d’AI Instructor (Training of Trainers Departement) où j’anime des sessions sur NLP, Transformers et LLM.

Espace Blackboard

Espace Blackboard ESB — création en cours pour ce module récent (intégration à la session 2026–2027). En attendant, les supports sont diffusés via le repository GitHub et les capsules YouTube référencées ci-dessous.

Acquis d’apprentissage

AA1 — Tokenization, BPE, WordPiece
AA2 — Embeddings : Word2Vec, GloVe, FastText, contextualisés
AA3 — Modèles séquentiels classiques (RNN, LSTM, GRU pour texte)
AA4 — Mécanisme d’attention et architecture Transformer
AA5 — Modèles pré-entraînés : BERT, GPT, T5
AA6 — Fine-tuning et prompt engineering
AA7 — Tâches NLP : classification, NER, QA, résumé, traduction
AA8 — Introduction aux Large Language Models (LLM)

Supports pédagogiques

Type	Description	Lien
Fiche module	ECUE descriptive sheet (UEF210)	PDF
Polycopié	Unified course (Chapter 1 + Chapter 2, 59 pages, ToC navigable)	PDF
Slides	Beamer (39 frames, Madrid theme)	PDF
TPs Python	4 Jupyter notebooks (tokenization, BoW/TF-IDF, Word2Vec, evaluation)	Folder
TDs	Exercises within each chapter (5 per section)	Réservé aux étudiants
Repository	Source code + LaTeX	GitHub

Plan détaillé

Fondamentaux du langage : morphologie, syntaxe, sémantique
Pré-traitement : tokenization, lemmatization, stop words
Embeddings : one-hot, Word2Vec, GloVe, FastText
Modèles séquentiels : RNN, LSTM, GRU pour texte
Mécanisme d’attention : self-attention, multi-head attention
Architecture Transformer : encodeur, décodeur, positional encoding
Modèles pré-entraînés : BERT (encodeur), GPT (décodeur), T5 (seq2seq)
Fine-tuning et adaptation : LoRA, PEFT
Large Language Models (LLM) : prompting, RAG, alignement
Applications : chatbots, résumé, traduction, recherche sémantique

Outils mobilisés

transformers (HuggingFace) · torch · tensorflow · spacy · nltk gensim · langchain · openai · tiktoken · sentencepiece

Liens avec mes activités de recherche

Recherche menée au sein de l’équipe AI4U (Artificial Intelligence 4 University), notamment :

Génération automatique de contenus pédagogiques via LLM
Évaluation augmentée par NLP
Personnalisation de l’apprentissage par modèles séquentiels

Prolongements

Module qui s’articule avec Deep Learning (architectures) et Generative Computer Vision (Generative AI).

Retour au sommet