基于改进CB-HAQL算法的无人机导航方法研究

TP399; 针对基于案例推理启发式Q学习(CB-HAQL)算法受案例库质量影响而无法收敛到较优策略的问题,提出基于有效触发机制改进的CB-HAQL算法.首先,根据迭代次数设置触发式案例库更新机制,只在达到阈值时生成或更新案例库,保证案例库质量;其次,设置动态参数调整案例对动作选取影响,使智能体根据对环境掌握程度决定启发影响大小;最后,加入经验倾向性探索动作加快学习效率.实验证明,改进后的算法提升了策略质量和训练速度,无人机完成导航任务证明了学习策略的有效性....

Full description

Saved in:
Bibliographic Details
Published in计算机应用研究 Vol. 37; no. 7; pp. 2068 - 2071
Main Authors 胡丹丹, 莫宇帅
Format Journal Article
LanguageChinese
Published 中国民航大学 机器人研究所,天津 300300 2020
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:TP399; 针对基于案例推理启发式Q学习(CB-HAQL)算法受案例库质量影响而无法收敛到较优策略的问题,提出基于有效触发机制改进的CB-HAQL算法.首先,根据迭代次数设置触发式案例库更新机制,只在达到阈值时生成或更新案例库,保证案例库质量;其次,设置动态参数调整案例对动作选取影响,使智能体根据对环境掌握程度决定启发影响大小;最后,加入经验倾向性探索动作加快学习效率.实验证明,改进后的算法提升了策略质量和训练速度,无人机完成导航任务证明了学习策略的有效性.
ISSN:1001-3695
DOI:10.19734/j.issn.1001-3695.2019.01.0024