데이터 기반 로봇 제어

데이터 기반 로봇 제어를 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함한 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 로봇 경험 데이터를 유지하는 단계; 주석 데이터를 획득하는 단계; 상기 주석 데이터에 대해 보상 모델을 트레이닝하는 단계; 특정 태스크에 대한 태스크-특정 트레이닝 데이터를 생성하는 단계 -태스크-특정 트레이닝 데이터를 생성하는 단계는, 로봇 경험 데이터의 제2 서브세트의 경험 데이터의 각 경험에 대해, 보상 예측을 생성하기 위해 트레이닝된 보상 모델을 사용하여 경험의 관측치를 프로세싱하고, 보상...

Full description

Saved in:
Bibliographic Details
Main Authors JEONG RAE CHAN, GOMES DE FREITAS JOAO FERDINANDO, CABI SERKAN, DENIL MISHA MAN RAY, SUSHKOV OLEG O, VECERIK MEL, BUDDEN DAVID, KONYUSHKOVA KSENIA, COLMENAREJO SERGIO GOMEZ, NOVIKOV ALEXANDER, SCHOLZ JONATHAN KARL, WANG ZIYU, BARKER DAVID, REED SCOTT ELLISON, AYTAR YUSUF
Format Patent
LanguageKorean
Published 02.05.2022
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:데이터 기반 로봇 제어를 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함한 방법, 시스템 및 장치가 개시된다. 방법 중 하나는 로봇 경험 데이터를 유지하는 단계; 주석 데이터를 획득하는 단계; 상기 주석 데이터에 대해 보상 모델을 트레이닝하는 단계; 특정 태스크에 대한 태스크-특정 트레이닝 데이터를 생성하는 단계 -태스크-특정 트레이닝 데이터를 생성하는 단계는, 로봇 경험 데이터의 제2 서브세트의 경험 데이터의 각 경험에 대해, 보상 예측을 생성하기 위해 트레이닝된 보상 모델을 사용하여 경험의 관측치를 프로세싱하고, 보상 예측을 경험과 연관시키는 단계를 포함함-; 그리고 특정 태스크에 대한 태스크-특정 트레이닝 데이터에 대한 정책 신경망을 트레이닝하는 단계를 포함하며, 정책 신경망은 관측치를 포함하는 네트워크 입력을 수신하고 그리고 특정 태스크를 수행하는 로봇에 대한 제어 정책을 정의하는 정책 출력을 생성하도록 구성된다. Methods, systems, and apparatus, including computer programs encoded on computer storage media, for data-driven robotic control. One of the methods includes maintaining robot experience data; obtaining annotation data; training, on the annotation data, a reward model; generating task-specific training data for the particular task, comprising, for each experience in a second subset of the experiences in the robot experience data: processing the observation in the experience using the trained reward model to generate a reward prediction, and associating the reward prediction with the experience; and training a policy neural network on the task-specific training data for the particular task, wherein the policy neural network is configured to receive a network input comprising an observation and to generate a policy output that defines a control policy for a robot performing the particular task.
Bibliography:Application Number: KR20227010461