CONTROLLING REINFORCEMENT LEARNING AGENTS USING GEOMETRIC POLICY COMPOSITION

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for controlling a reinforcement learning agent in an environment. One of the methods may include maintaining data specifying a base policy set comprising a plurality of base policies for controlling th...

Full description

Saved in:
Bibliographic Details
Main Authors DABNEY, William Clinton, MUNOS, Remi, BORSA, Diana Luiza, THAKOOR, Shantanu Yogeshraj, DA MOTTA SALLES BARRETO, Andre, ROWLAND, Mark Daniel
Format Patent
LanguageEnglish
French
Published 03.08.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for controlling a reinforcement learning agent in an environment. One of the methods may include maintaining data specifying a base policy set comprising a plurality of base policies for controlling the agent; receiving a current observation characterizing a current state of the environment; generating, for each of the plurality of base policies, one or more predicted future observations characterizing respective future states of the environment that are subsequent to the current state of the environment; using the predicted future observations generated for the plurality of base policies to determine a respective estimated value for each composite policy in a composite policy set with respect to the current state of the environment; and selecting an action using the respective estimated values for the composite policies. L'invention concerne des procédés, des systèmes et un appareil, y compris des programmes informatiques codés sur un support de stockage informatique, pour commander un agent d'apprentissage par renforcement dans un environnement. L'un des procédés peut consister à maintenir des données spécifiant un ensemble de politiques de base comprenant une pluralité de politiques de base pour commander l'agent; à recevoir une observation actuelle caractérisant un état actuel de l'environnement; à générer, pour chacune de la pluralité de politiques de base, une ou plusieurs observations futures prédites caractérisant des états futurs respectifs de l'environnement qui sont ultérieurs à l'état actuel de l'environnement; à utiliser les observations futures prédites générées pour la pluralité de politiques de base pour déterminer une valeur estimée respective pour chaque politique composite dans un ensemble de politiques composites par rapport à l'état actuel de l'environnement; et à sélectionner une action à l'aide des valeurs estimées respectives pour les politiques composites.
Bibliography:Application Number: WO2023EP52205