INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD

The technology of the present invention relates to an information processing device and information processing method that make it possible to realize various variations of various event scenes in a simulator environment that simulates the real world. A reward provision unit provides rewards to a fi...

Full description

Saved in:
Bibliographic Details
Main Authors NAKADA Kento, OSATO Akihito, SUZUKI Hirotaka, NARIHIRA Takuya
Format Patent
LanguageEnglish
French
Japanese
Published 21.06.2018
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:The technology of the present invention relates to an information processing device and information processing method that make it possible to realize various variations of various event scenes in a simulator environment that simulates the real world. A reward provision unit provides rewards to a first agent and a second agent that act in a simulator environment which simulates the real world and that learn action determination rules in accordance with rewards in respect to the act. A reward in accordance with a prescribed reward definition is provided to the first agent. In addition, a reward in accordance with an opposing reward definition is provided to the second agent, the opposing reward definition being in opposition to the prescribed reward definition such that the obtained reward becomes larger when the second agent acts to create a situation in which the reward of the first agent becomes smaller, and the obtained reward becomes smaller when the second agent acts such that the reward of the first agent becomes larger. The technology can be applied to reinforcement learning for an agent, for example. L'invention concerne un dispositif et un procédé de traitement d'informations permettant de réaliser diverses variations de diverses scènes d'événements dans un environnement de simulateur qui simule le monde réel. Une unité de fourniture de récompenses fournit des récompenses à un premier agent et à un second agent agissant dans un environnement de simulateur qui simulent le monde réel et apprennent des règles de détermination d'action en fonction des récompenses relatives à l'acte. Une récompense est fournie au premier agent en fonction d'une définition de récompense prescrite. De plus, une récompense est fournie au second agent en fonction d'une définition de récompense opposée, la définition de récompense opposée étant opposée à la définition de récompense prescrite afin que la récompense obtenue soit plus importante lorsque le second agent agit pour créer une situation dans laquelle la récompense du premier agent est moins importante et afin que la récompense obtenue soit moins importante lorsque le second agent agit de façon à ce que la récompense du premier agent soit plus importante. La technologie peut s'appliquer par exemple à un apprentissage de renforcement pour un agent. 本技術は、現実世界を模したシミュレータ環境において、様々な事象のシーンの様々なバリエーションを実現することができるようにする情報処理装置及び情報処理方法に関する。 報酬提供部は、現実世界を模したシミュレータ環境の中を行動し、その行動に対する報酬に応じて、行動決定則を学習する第1のエージェント及び第2のエージェントに対して報酬を提供する。第1のエージェントに対しては、所定の報酬定義に従った報酬を提供される。また、第2のエージェントが第1のエージェントの報酬を小にする状況になるように行動した場合に得られる報酬が大になり、第1のエージェントの報酬を大にするように行動した場合に得られる報酬が小になる報酬定義を、所定の報酬定義に敵対する敵対報酬定義として、第2のエージェントに対して、敵対報酬定義に従った報酬が提供される。本技術は、例えば、エージェントの強化学習に適用できる。
Bibliography:Application Number: WO2017JP43163