一种基于强化学习的多航天器追逃博弈下的最优捕获方法

本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:建立多航天器动态方程;获取追逃博弈双方的初始位置,对多航天器进行任务分配;针对外部扰动设计补偿器;对动态方程进行坐标变换;根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;设计基于强化学习的无模型迭代策略;初始化控制器,并采集博弈双方动态信息;根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;根据最优控制器控制追击航天器捕获逃逸航天器,实现追逃博弈的纳什均衡。与现有技术相比,本发明可以克服外部系统带来的扰动,在未知模型的情况下完成追击任务并实现纳什均衡。...

Full description

Saved in:
Bibliographic Details
Format Patent
LanguageChinese
Published 02.01.2024
Subjects
Online AccessGet full text

Cover

More Information
Summary:本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:建立多航天器动态方程;获取追逃博弈双方的初始位置,对多航天器进行任务分配;针对外部扰动设计补偿器;对动态方程进行坐标变换;根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;设计基于强化学习的无模型迭代策略;初始化控制器,并采集博弈双方动态信息;根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;根据最优控制器控制追击航天器捕获逃逸航天器,实现追逃博弈的纳什均衡。与现有技术相比,本发明可以克服外部系统带来的扰动,在未知模型的情况下完成追击任务并实现纳什均衡。
Bibliography:Application Number: CN202311242135