PAC最优的RMAX-KNN探索算法

TP301.6; 探索与利用的均衡是强化学习研究的重点之一.探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策.目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低.针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分.RMAX-KNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 14; no. 3; pp. 513 - 526
Main Authors 李超, 门昌骞, 王文剑
Format Journal Article
LanguageChinese
Published 山西大学 计算机与信息技术学院,太原,0300062%计算智能与中文信息处理教育部重点实验室(山西大学),太原,030006 01.03.2020
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1905023

Cover

Loading…
More Information
Summary:TP301.6; 探索与利用的均衡是强化学习研究的重点之一.探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策.目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低.针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分.RMAX-KNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法.在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1905023