策略梯度的超启发算法求解带容量约束车辆路径问题

有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解...

Full description

Saved in:

Bibliographic Details
Published in	控制理论与应用 Vol. 41; no. 6; pp. 1111 - 1122
Main Authors	张景玲, 孙钰粟, 赵燕伟, 余孟凡, 蒋玉勇
Format	Journal Article
Language	Chinese
Published	浙江工业大学特种装备制造及先进加工技术教育部重点实验室,浙江杭州 310014 01.06.2024
Subjects	关策略梯度算法车辆路径问题超启发算法 policy gradient neural networks 强化学习 vehicle routing problem 神经网络 hyper-heuristic reinforcement learning
Online Access	Get full text
ISSN	1000-8152
DOI	10.7641/CTA.2023.20642

Cover

More Information
Summary:	有容量车辆路径问题是组合优化问题中比较热门的问题,它属于经典的NP-hard问题并且时间复杂度高.本文提出了一种基于策略梯度的超启发算法,将强化学习中的确定性策略梯度算法引入到超启发算法的高层策略中的底层算法选择策略,确定性策略梯度算法采用Actor-Critic框架,另外为了能够在后续计算和神经网络参数更新中引用历史经验数据,在确定性策略梯度算法中设计了经验池用于存储状态转移数据.在超启发算法解的接受准则方面,文中通过实验对比了3种接受准则的效果,最终选择了自适应接受准则作为高层策略中解的接受准则.通过对有容量车辆路径问题标准算例的计算,并将求解结果与其他算法对比,验证了所提算法在该问题求解上的有效性和稳定性.
ISSN:	1000-8152
DOI:	10.7641/CTA.2023.20642