복합 시스템들의 제어를 위한 무작위화된 강화 학습

복합 시스템(50)을 제어하는 방법(10a; 10b) 및 방법(10a; 10b)에 의해 제어되는 가스 터빈(50)이 제공된다. 방법(10a; 10b)은, 트레이닝 데이터(40)를 제공하는 단계(11) -이 트레이닝 데이터(40)는, 시스템(50)의 상태 공간(S)의 적어도 일부를 표현함-; 시스템(50)에 대한 일반 제어 목적(32) 및 대응하는 설정점(33)을 설정하는 단계(12); 및 예상 총 보상을 최대화하는, 시스템(50)에 대한 제어 정책을 위해, 강화 학습을 사용하여 상태 공간(S)을 탐색하는 단계(13)를 포함한다. 예...

Full description

Saved in:
Bibliographic Details
Main Authors WEBER MARC CHRISTIAN, UDLUFT STEFFEN, DUELL SIEGMUND, NORDLUND RAYMOND S, HEESCHE KAI
Format Patent
LanguageKorean
Published 10.06.2020
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:복합 시스템(50)을 제어하는 방법(10a; 10b) 및 방법(10a; 10b)에 의해 제어되는 가스 터빈(50)이 제공된다. 방법(10a; 10b)은, 트레이닝 데이터(40)를 제공하는 단계(11) -이 트레이닝 데이터(40)는, 시스템(50)의 상태 공간(S)의 적어도 일부를 표현함-; 시스템(50)에 대한 일반 제어 목적(32) 및 대응하는 설정점(33)을 설정하는 단계(12); 및 예상 총 보상을 최대화하는, 시스템(50)에 대한 제어 정책을 위해, 강화 학습을 사용하여 상태 공간(S)을 탐색하는 단계(13)를 포함한다. 예상 총 보상은, 대응하는 설정점(33)으로부터 일반 제어 목적(32)의 무작위화된 편차(31)에 따라 좌우된다. A method of controlling a complex system and a gas turbine being controlled by the method are provided. The method comprises providing training data, which training data represents at least a portion of a state space of the system; setting a generic control objective for the system and a corresponding set point; and exploring the state space, using Reinforcement Learning, for a control policy for the system which maximizes an expected total reward. The expected total reward depends on a randomized deviation of the generic control objective from the corresponding set point.
Bibliography:Application Number: KR20207015583