L’apprentissage par renforcement reproduit le mécanisme "naturel" d’acquisition des connaissances. Robot, chatbot, voiture autonome, ses applications sont multiples dans l’intelligence artificielle.
Le reinforcement learning (ou apprentissage par renforcement) met en œuvre des algorithmes d'apprentissage qui tirent les leçons d'expériences répétées en procédant par essai-erreur. Il reproduit ainsi le mécanisme "naturel" d'acquisition des connaissances.
Pour orienter l'apprentissage dans la direction voulue, les algorithmes d'apprentissage par renforcement valident les décisions prises par la machine via un mécanisme de récompense ou de pénalité. On pourrait comparer la démarche à du dressage.
Les deux plus célèbres algorithmes de reinforcement learning sont le TD learning (pour temporal difference learning) et le Q-learning. Des modèles de learning qui s'inspirent du processus humain (et animal) d'acquisition des connaissances par essais-erreurs.
Le principal avantage du reinforcement learning : pour programmer un robot par exemple, plus besoin d'un long et fastidieux travail de développement. L'ordinateur apprendra à opérer, à réagir à tel ou tel événement ou requête par lui-même.
Que le robot soit physique ou virtuel, la phase de learning sera exécutée sous forme de simulation numérique. Un mode opératoire qui permet d'optimiser le temps d'apprentissage.
Se classant dans la catégorie du machine learning automatique (ou non-supervisé), le reinforcement learning s'adosse généralement à des réseaux de neurones dans le but d'estimer efficacement la validité d'une stratégie "complexe", avec à la clé un grand nombre de critères de choix à prendre en compte. On parle alors de deep reinforcement learning (DRL). Le principal enjeu étant d'aboutir à un système qui encourage les comportements souhaités, et sans effets secondaires indésirables.
Souvent présenté comme l'IA ultime, le DRL permet de créer des logiciels capables d'atteindre voire de surpasser l'intelligence humaine dans plusieurs domaines. Le système le plus célèbre tirant parti de la méthode n'est autre que DeepMind, la plateforme d'IA de Google (issue du rachat de l'entreprise britannique du même nom en 2014). C'est sur elle que le géant américain s'est basé pour développer AlphaGo, le supercalculateur connu pour avoir battu en 2017 le champion du monde de go, le Chinois Ke Jie.
L'apprentissage par renforcement profond est utilisé dans de nombreux domaines :
Sommaire Le reinforcement learning, c'est quoi ? Quels sont les algorithmes d'apprentissage par renforcement ? Quel est l'avantage du reinforcement learning ? Le deep reinforcement learning, c'est quoi ? Quelques…
Je gère mes abonnements push
Les informations recueillies sont destinées à CCM Benchmark Group pour vous assurer l’envoi de votre newsletter.
Elles seront également utilisées sous réserve des options souscrites, par CCM Benchmark Group à des fins de ciblage publicitaire et prospection commerciale au sein du Groupe Le Figaro, ainsi qu’avec nos partenaires commerciaux.
Le traitement de votre email à des fins de publicité et de contenus personnalisés est réalisé lors de votre inscription sur ce formulaire. Toutefois, vous pouvez vous y opposer à tout moment
Plus généralement, vous bénéficiez d’un droit d’accès et de rectification de vos données personnelles, ainsi que celui d’en demander l’effacement dans les limites prévues par la loi.
Vous pouvez également à tout moment revoir vos options en matière de prospection commerciale et ciblage. En savoir plus sur notre politique de confidentialité ou notre politique Cookies.