L’apprentissage par renforcement (en anglais : Reinforcement Learning) désigne l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre dans un environnement, de façon autonome, en recevant des récompenses ou des pénalités en fonction de ses actions.
Au travers de son expérience, l’agent cherche à trouver la stratégie décisionnelle optimale qui puisse lui permettre de maximiser les récompenses accumulées au cours du temps.
Par exemple, dans le jeu de Pac-Man, le but de l’agent (Pac-Man) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. Pac-Man reçoit une récompense pour avoir mangé de la nourriture et une punition s’il est tué par le fantôme (il perd le jeu).
Activité 1 : l’hexapawn
Activité 2 : MENACE, la machine qui apprend à jouer au Morpion
- Présentation de MENACE
- Jouer avec MENACE : https://www.mscroggs.co.uk/menace/ (page en anglais : utiliser le navigateur pour traduire si nécessaire)
Activité 3 : l’équation de Bellman
- Activité de découverte de l’équation de Bellman
- Présentation de l’équation de Bellman
- Activité sur le jeu de Nim : fichier Notebook
Activité 4 : TP Morpion
- TP Morpion : fichier Notebook