LEARNING DEVICE, LEARNING METHOD, AND LEARNING PROGRAM
A target output means 91 outputs a plurality of second targets, which are the results of optimizing a first target using one or a plurality of objective functions that were generated in advance through inverse reinforcement learning based on decision-making history data indicating actual changes to...
Saved in:
Main Authors | , |
---|---|
Format | Patent |
Language | English French Japanese |
Published |
18.11.2021
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | A target output means 91 outputs a plurality of second targets, which are the results of optimizing a first target using one or a plurality of objective functions that were generated in advance through inverse reinforcement learning based on decision-making history data indicating actual changes to a target. A selection reception means 92 receives selection instructions from a user with regard to the outputted plurality of second targets. A data output means 93 outputs, as decision-making history data, the actual change from the first target to the received second target. A training means 94 uses the decision-making history data to train an objective function.
Selon l'invention, un moyen de sortie de cible (91) délivre en sortie une pluralité de secondes cibles, qui sont les résultats de l'optimisation d'une première cible à l'aide d'une ou d'une pluralité de fonctions objectives qui ont été préalablement générées par apprentissage par renforcement inverse sur la base de données d'historique de prise de décision indiquant des changements réels sur une cible. Un moyen de réception de sélection (92) reçoit des instructions de sélection en provenance d'un utilisateur concernant la pluralité de secondes cibles délivrées en sortie. Un moyen de sortie de données (93) délivre en sortie, en tant que données d'historique de prise de décision, le changement réel de la première cible à la seconde cible reçue. Un moyen d'entraînement (94) utilise les données d'historique de prise de décision pour entraîner une fonction objectif.
対象出力手段91は、対象の変更実績を示す意思決定履歴データに基づく逆強化学習で予め生成された一つまたは複数の目的関数を用いた第一の対象に対する最適化結果である第二の対象を複数出力する。選択受付手段92は、出力された複数の第二の対象に対するユーザからの選択指示を受け付ける。データ出力手段93は、第一の対象から、受け付けた第二の対象への変更実績を意思決定履歴データとして出力する。学習手段94は、意思決定履歴データを用いて目的関数を学習する。 |
---|---|
Bibliography: | Application Number: WO2020JP18768 |