基于自适应增强随机搜索的航天器追逃博弈策略研究

V448.2; 针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法.针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep de...

Full description

Saved in:

Bibliographic Details
Published in	西北工业大学学报 Vol. 42; no. 1; pp. 117 - 128
Main Authors	焦杰, 苟永杰, 吴文博, 泮斌峰
Format	Journal Article
Language	Chinese
Published	航天飞行动力学技术国家级重点实验室,陕西西安 710072%上海宇航系统工程研究所,上海 201108 01.02.2024 西北工业大学航天学院,陕西西安 710072
Subjects	non-cooperative target 稀疏奖励 sparse reward pursuit game 微分对策强化学习 differential game theory 非合作目标追逃博弈 reinforcement learning
Online Access	Get full text
ISSN	1000-2758
DOI	10.1051/jnwpu/20244210117

Cover

More Information
Summary:	V448.2; 针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法.针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性.
ISSN:	1000-2758
DOI:	10.1051/jnwpu/20244210117