基于强化学习的战时保障力量调度策略研究
TP301; 智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性.针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化.为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数.仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能....
Saved in:
Published in | 系统工程与电子技术 Vol. 44; no. 1; pp. 199 - 208 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
海军工程大学管理工程与装备经济系,湖北武汉430033%海军工程大学教研保障中心,湖北武汉430033%海军工程大学导航工程系,湖北武汉430033
2022
|
Subjects | |
Online Access | Get full text |
ISSN | 1001-506X |
DOI | 10.12305/j.issn.1001-506X.2022.01.25 |
Cover
Summary: | TP301; 智能化后装保障调度是当前军事领域的研究热点之一,其中复杂多变的战场环境要求战时保障具有良好的自适应性.针对此问题,提出了基于马尔可夫决策过程的强化学习模型,能够主动学习最佳派遣策略,根据历史数据和当前态势预判后续变化.为了考虑不确定事件的影响,在模型求解算法中增加了基于概率统计模型的仿真流程;为了减少随机事件带来的计算复杂性,利用决策后状态变量重新设计了贝尔曼迭代方程;为了解决状态空间的维度灾问题,提出了基于基函数组合的近似函数.仿真实验表明,强化学习能力的引入能够显著提高战时保障调度性能. |
---|---|
ISSN: | 1001-506X |
DOI: | 10.12305/j.issn.1001-506X.2022.01.25 |