Théorie et Algorithme de l’apprentissage par renforcement ; deep reinforcement learning, Modèles génératifs
(VAE, GANs), Modèles stochastiques,
Modèles adverses, études de cas sur applications
- Responsables : Olivier Sigaud, Nicolas Thome
- Prérequis: suivre AMAL en parallèle + les prérequis d’AMAL
- Contenu:
- Markov Decision Process
- Algorithmes de Bandits (bandits stochastiques, bandits contextuels, …)
- Apprentissage par renforcement (TD-lambda, Q learning, …)
- Apprentissage profond pour le renforcement (Deep Q learning, Policy gradient, Reinforce, Actor critic, DDPG, TRPO, …)
- Apprentissage par imitation
- Modèles génératifs & adverses, GAN, VAE
- Apprentissage par renforcement inverse (apprentissage des fonctions de récompense)
- Curriculum learning, reward shaping (apprentissage incrémental: de sous tâches plus simples vers la tâche finale)
Les transparents & exercices sont disponibles sur Moodle
Ressources 2022-2023Ressources 2021-2022Ressources 2020-2021Ressources 2019-2020