LEARNING DEVICE AND LEARNING METHOD
The present disclosure relates to a learning device and learning method with which it is possible to easily correct a reinforcement learning model on the basis of a user input. A display control unit causes a display unit to display reinforcement learning model information which relates to a reinfor...
Saved in:
Main Authors | , , , |
---|---|
Format | Patent |
Language | English French Japanese |
Published |
05.07.2018
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | The present disclosure relates to a learning device and learning method with which it is possible to easily correct a reinforcement learning model on the basis of a user input. A display control unit causes a display unit to display reinforcement learning model information which relates to a reinforcement learning model. A correction unit corrects the reinforcement learning model on the basis of an input from a user regarding the reinforcement learning model information. The present disclosure may be applied to, for example, a personal computer (PC) which corrects a reinforcement learning model on the basis of an input from a user and which learns, by reinforcement learning, a movement policy of an agent using the corrected reinforcement learning model.
La présente invention concerne un dispositif d'apprentissage et un procédé d'apprentissage avec lesquels il est possible de corriger facilement un modèle d'apprentissage de renforcement sur la base d'une entrée d'utilisateur. Une unité de commande d'affichage amène une unité d'affichage à afficher des informations de modèle d'apprentissage de renforcement qui concernent un modèle d'apprentissage de renforcement. Une unité de correction corrige le modèle d'apprentissage de renforcement sur la base d'une entrée provenant d'un utilisateur concernant les informations de modèle d'apprentissage de renforcement. La présente invention peut être appliquée, par exemple, à un ordinateur personnel (PC) qui corrige un modèle d'apprentissage de renforcement sur la base d'une entrée provenant d'un utilisateur et qui apprend, par apprentissage de renforcement, une politique de mouvement d'un agent à l'aide du modèle d'apprentissage de renforcement corrigé.
本開示は、ユーザ入力に基づいて強化学習モデルを容易に修正することができるようにする学習装置および学習方法に関する。 表示制御部は、強化学習モデルに関する強化学習モデル情報を表示部に表示させる。修正部は、強化学習モデル情報に対するユーザの入力に基づいて、強化学習モデルを修正する。本開示は、例えば、ユーザからの入力に基づいて強化学習モデルを修正し、修正後の強化学習モデルを用いてエージェントの移動方策を強化学習するパーソナルコンピュータ(PC)等に適用することができる。 |
---|---|
Bibliography: | Application Number: WO2017JP44839 |