{"id":4197,"date":"2023-06-16T21:44:50","date_gmt":"2023-06-16T19:44:50","guid":{"rendered":"https:\/\/sites.ac-corse.fr\/maths\/?page_id=4197"},"modified":"2026-06-18T17:25:39","modified_gmt":"2026-06-18T15:25:39","slug":"apprentissage-renforcement","status":"publish","type":"page","link":"https:\/\/sites.ac-corse.fr\/maths\/apprentissage-renforcement\/","title":{"rendered":"Apprentissage par renforcement"},"content":{"rendered":"\n<div class=\"wp-block-buttons is-content-justification-center is-layout-flex wp-container-core-buttons-is-layout-fe48e5de wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/sites.ac-corse.fr\/maths\/labo-ia\/\">Cors&rsquo;IA<\/a><\/div>\n\n\n\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/sites.ac-corse.fr\/maths\/apprentissage-renforcement\/\">Apprentissage par renforcement<\/a><\/div>\n\n\n\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/sites.ac-corse.fr\/maths\/apprentissage-supervise\/\">Apprentissage supervis\u00e9<\/a><\/div>\n\n\n\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/sites.ac-corse.fr\/maths\/algorithmes-divers\/\">Algorithmes divers<\/a><\/div>\n<\/div>\n\n\n\n<hr class=\"wp-block-separator aligncenter has-alpha-channel-opacity is-style-wide\"\/>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo;<strong>apprentissage par renforcement<\/strong>&nbsp;(en anglais :&nbsp;<em>Reinforcement Learning<\/em>) d\u00e9signe l\u2019ensemble des m\u00e9thodes qui permettent \u00e0 un&nbsp;<strong>agent<\/strong>&nbsp;d\u2019apprendre \u00e0 choisir quelle action prendre dans un&nbsp;<strong>environnement<\/strong>, de fa\u00e7on autonome, en recevant des&nbsp;<strong>r\u00e9compenses<\/strong>&nbsp;ou des p\u00e9nalit\u00e9s en fonction de ses actions.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Au travers de son exp\u00e9rience, l\u2019agent cherche \u00e0 trouver la strat\u00e9gie d\u00e9cisionnelle optimale qui puisse lui permettre de maximiser les r\u00e9compenses accumul\u00e9es au cours du temps.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Par exemple, dans le jeu de Pac-Man, le but de l\u2019agent (Pac-Man) est de manger la nourriture dans la grille tout en \u00e9vitant les fant\u00f4mes sur son chemin. Le monde de la grille est l\u2019environnement interactif de l\u2019agent. Pac-Man re\u00e7oit une r\u00e9compense pour avoir mang\u00e9 de la nourriture et une punition s\u2019il est tu\u00e9 par le fant\u00f4me (il perd le jeu).<\/p>\n\n\n\n<div style=\"height:44px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h4 class=\"wp-block-heading\">Activit\u00e9 1 : l&rsquo;hexapawn<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a rel=\"noreferrer noopener\" href=\"https:\/\/sites.ac-corse.fr\/maths\/wp-content\/uploads\/sites\/18\/2023\/09\/Hexapawn.pdf\" data-type=\"link\" data-id=\"https:\/\/sites.ac-corse.fr\/maths\/wp-content\/uploads\/sites\/18\/2023\/09\/Hexapawn.pdf\" target=\"_blank\">Pr\u00e9sentation du principe<\/a> <\/li>\n<\/ul>\n\n\n\n<div style=\"height:44px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h4 class=\"wp-block-heading\">Activit\u00e9 2 : MENACE, la machine qui apprend \u00e0 jouer au Morpion<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/sites.ac-corse.fr\/maths\/?page_id=4550\" data-type=\"link\" data-id=\"https:\/\/sites.ac-corse.fr\/maths\/?page_id=4550\" target=\"_blank\" rel=\"noreferrer noopener\">Pr\u00e9sentation de MENACE<\/a> <\/li>\n\n\n\n<li>Jouer avec MENACE : <a rel=\"noreferrer noopener\" href=\"https:\/\/www.mscroggs.co.uk\/menace\/\" target=\"_blank\">https:\/\/www.mscroggs.co.uk\/menace\/<\/a> (page en anglais : utiliser le navigateur pour traduire si n\u00e9cessaire)<\/li>\n<\/ul>\n\n\n\n<div style=\"height:44px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h4 class=\"wp-block-heading\">Activit\u00e9 3 : l&rsquo;\u00e9quation de Bellman<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"http:\/\/ia.dellasantina.corsica\/qlearning-equation-bellman\" target=\"_blank\" rel=\"noreferrer noopener\">Activit\u00e9 de d\u00e9couverte<\/a>&nbsp;de l&rsquo;\u00e9quation de Bellman<\/li>\n\n\n\n<li><a href=\"https:\/\/sites.ac-corse.fr\/maths\/?page_id=4579\" data-type=\"link\" data-id=\"https:\/\/sites.ac-corse.fr\/maths\/?page_id=4579\" target=\"_blank\" rel=\"noreferrer noopener\">Pr\u00e9sentation de l&rsquo;\u00e9quation de Bellman<\/a> <\/li>\n\n\n\n<li>Activit\u00e9 sur le jeu de Nim :&nbsp;<a href=\"https:\/\/notebook.basthon.fr\/?from=https:\/\/python.dellasantina.corsica\/files\/Jeu_de_nim_avec_IA.ipynb\" target=\"_blank\" rel=\"noreferrer noopener\">fichier Notebook<\/a><\/li>\n<\/ul>\n\n\n\n<div style=\"height:44px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h4 class=\"wp-block-heading\">Activit\u00e9 4 : TP Morpion<\/h4>\n\n\n\n<ul class=\"wp-block-list\">\n<li>TP Morpion : <a href=\"https:\/\/notebook.basthon.fr\/?from=https:\/\/python.dellasantina.corsica\/files\/Q_learning_Morpion.ipynb\" target=\"_blank\" rel=\"noreferrer noopener\">fichier Notebook<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>L&rsquo;apprentissage par renforcement&nbsp;(en anglais :&nbsp;Reinforcement Learning) d\u00e9signe l\u2019ensemble des m\u00e9thodes qui permettent \u00e0 un&nbsp;agent&nbsp;d\u2019apprendre \u00e0 choisir quelle action prendre dans un&nbsp;environnement, de fa\u00e7on autonome, en recevant des&nbsp;r\u00e9compenses&nbsp;ou des p\u00e9nalit\u00e9s en fonction de ses actions. Au travers de son exp\u00e9rience, l\u2019agent cherche \u00e0 trouver la strat\u00e9gie d\u00e9cisionnelle optimale qui puisse lui permettre de maximiser les r\u00e9compenses [&hellip;]<\/p>\n","protected":false},"author":90,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4197","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/pages\/4197","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/users\/90"}],"replies":[{"embeddable":true,"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/comments?post=4197"}],"version-history":[{"count":2,"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/pages\/4197\/revisions"}],"predecessor-version":[{"id":6702,"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/pages\/4197\/revisions\/6702"}],"wp:attachment":[{"href":"https:\/\/sites.ac-corse.fr\/maths\/wp-json\/wp\/v2\/media?parent=4197"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}