Apprentissage par renforcement – Site disciplinaire

L’apprentissage par renforcement (en anglais : Reinforcement Learning) désigne l’ensemble des méthodes qui permettent à un agent d’apprendre à choisir quelle action prendre dans un environnement, de façon autonome, en recevant des récompenses ou des pénalités en fonction de ses actions.

Au travers de son expérience, l’agent cherche à trouver la stratégie décisionnelle optimale qui puisse lui permettre de maximiser les récompenses accumulées au cours du temps.

Par exemple, dans le jeu de Pac-Man, le but de l’agent (Pac-Man) est de manger la nourriture dans la grille tout en évitant les fantômes sur son chemin. Le monde de la grille est l’environnement interactif de l’agent. Pac-Man reçoit une récompense pour avoir mangé de la nourriture et une punition s’il est tué par le fantôme (il perd le jeu).

Activité 1 : l’hexapawn

Présentation du principe

Activité 2 : MENACE, la machine qui apprend à jouer au Morpion

Présentation de MENACE
Jouer avec MENACE : https://www.mscroggs.co.uk/menace/ (page en anglais : utiliser le navigateur pour traduire si nécessaire)

Activité 3 : l’équation de Bellman

Activité de découverte de l’équation de Bellman
Présentation de l’équation de Bellman
Activité sur le jeu de Nim : fichier Notebook

Activité 4 : TP Morpion

TP Morpion : fichier Notebook