AUTOREGRESSIVELY GENERATING SEQUENCES OF DATA ELEMENTS DEFINING ACTIONS TO BE PERFORMED BY AN AGENT

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for selecting actions to be performed by an agent to interact with an environment using an action selection neural network. In one aspect, a method comprises, at each time step in a sequence of time st...

Full description

Saved in:
Bibliographic Details
Main Authors GOMES DE FREITAS, Joao Ferdinando, ZOLNA, Konrad, EDWARDS, Ashley Deloris, GOMEZ, Sergio, PARISOTTO, Emilio, REED, Scott Ellison, DENIL, Misha Man Ray, NOVIKOV, Alexander, VINYALS, Oriol, BRUCE, Jacob, EREZ, Tom, RAE, Jack William, BARTH-MARON, Gabriel
Format Patent
LanguageEnglish
French
Published 02.03.2023
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for selecting actions to be performed by an agent to interact with an environment using an action selection neural network. In one aspect, a method comprises, at each time step in a sequence of time steps: generating a current representation of a state of a task being performed by the agent in the environment as of the current time step as a sequence of data elements; autoregressively generating a sequence of data elements representing a current action to be performed by the agent at the current time step; and after autoregressively generating the sequence of data elements representing the current action, causing the agent to perform the current action at the current time step. L'invention concerne des procédés, des systèmes et des appareils, y compris des programmes informatiques codés sur un support de stockage informatique, pour sélectionner des actions à effectuer par un agent afin d'interagir avec un environnement à l'aide d'un réseau de neurones de sélection d'actions. Selon un aspect de l'invention, un procédé consiste, à chaque pas temporel d'une séquence de pas temporels, à : générer une représentation actuelle d'un état d'une tâche en train d'être effectuée par l'agent dans l'environnement jusqu'au pas temporel actuel sous la forme d'une séquence d'éléments de données ; générer de manière autorégressive une séquence d'éléments de données représentant une action actuelle à effectuer par l'agent au pas temporel actuel ; et après avoir généré de manière autorégressive la séquence d'éléments de données représentant l'action actuelle, amener l'agent à effectuer l'action actuelle au pas temporel actuel.
Bibliography:Application Number: WO2022EP72731