PAC最优的RMAX-KNN探索算法

TP301.6; 探索与利用的均衡是强化学习研究的重点之一.探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策.目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低.针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分.RMAX-KNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学与探索 Vol. 14; no. 3; pp. 513 - 526
Main Authors	李超, 门昌骞, 王文剑
Format	Journal Article
Language	Chinese
Published	山西大学计算机与信息技术学院,太原,0300062%计算智能与中文信息处理教育部重点实验室(山西大学),太原,030006 01.03.2020
Subjects	值函数探索与利用的均衡概率近似正确(PAC)最优探索算法状态空间自适应离散化
Online Access	Get full text
ISSN	1673-9418
DOI	10.3778/j.issn.1673-9418.1905023

Cover

Loading…

More Information
Summary:	TP301.6; 探索与利用的均衡是强化学习研究的重点之一.探索帮助智能体进一步了解环境来做出更优决策;而利用帮助智能体根据其自身当前对于环境的认知来做出当前最优决策.目前大多数探索算法只与值函数相关联,不考虑当前智能体对于环境的认知程度,探索效率极低.针对此问题,提出了一种基于状态空间自适应离散化的RMAX-KNN强化学习算法,算法根据当前智能体对于环境状态空间的离散化程度改写值函数形式,然后基于此值函数对环境进行合理的探索,逐步实现对于环境状态空间的自适应离散化划分.RMAX-KNN算法通过将探索与环境状态空间离散化相结合,逐渐加深智能体对于环境的认知程度,进而提高探索效率,同时在理论上证明该算法是一种概率近似正确(PAC)最优探索算法.在Benchmark环境上的仿真实验结果表明,RMAX-KNN算法可以在探索环境的同时实现对于环境状态空间的自适应离散化,并学习到最优策略.
ISSN:	1673-9418
DOI:	10.3778/j.issn.1673-9418.1905023