增量式双自然策略梯度的行动者评论家算法

TP181; 针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法.该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解.为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法.为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较.实验结果表明,所提算法具有收敛速...

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 38; no. 4; pp. 166 - 177
Main Authors 章鹏, 刘全, 钟珊, 翟建伟, 钱炜晟
Format Journal Article
LanguageChinese
Published 软件新技术与产业化协同创新中心,江苏南京210000 2017
吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012
苏州大学计算机科学与技术学院,江苏苏州,215006%苏州大学计算机科学与技术学院,江苏苏州215006
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.11959/j.issn.1000-436x.2017089

Cover

More Information
Summary:TP181; 针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法.该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解.为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法.为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较.实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点.
ISSN:1000-436X
DOI:10.11959/j.issn.1000-436x.2017089