基于几何路网结构和强化学习的车辆重定位策略

U491; 网约车司机和乘客双向搜索效率低、准确性差,造成了需求与供应之间的不匹配.网约车重定位策略将车辆提前调度到未来有需求的地区,提高了供需匹配度.现有的研究大多以网络栅格表示城市道路环境,缺少几何拓扑信息,影响了调度准确性.针对这一现象,提出一种基于图神经网络(GNN)和执行者-评论者强化学习算法(A2C)的网约车重定位算法GA2C.该算法学习过程更平稳且能够高维采样,适用于海量网约车进行多智能体最佳重定位策略的学习,并且使用几何路网结构表示城市道路环境,可以将GNN作为函数逼近器学习路网几何信息,此外,引入基于动作价值函数的动作采样策略,增加了动作选择的随机性,从而有效防止竞争.基于P...

Full description

Saved in:
Bibliographic Details
Published in华南理工大学学报(自然科学版) Vol. 51; no. 10; pp. 99 - 109
Main Authors 许伦辉, 余佳芯, 裴明阳, 吴攀, 李鹏
Format Journal Article
LanguageChinese
Published 华南理工大学 土木与交通学院,广东 广州 510640%重庆交通大学 交通运输学院,重庆 400000%深圳职业技术学院 汽车与交通学院,广东 深圳 518055 01.10.2023
Subjects
Online AccessGet full text
ISSN1000-565X
DOI10.12141/j.issn.1000-565X.230148

Cover

More Information
Summary:U491; 网约车司机和乘客双向搜索效率低、准确性差,造成了需求与供应之间的不匹配.网约车重定位策略将车辆提前调度到未来有需求的地区,提高了供需匹配度.现有的研究大多以网络栅格表示城市道路环境,缺少几何拓扑信息,影响了调度准确性.针对这一现象,提出一种基于图神经网络(GNN)和执行者-评论者强化学习算法(A2C)的网约车重定位算法GA2C.该算法学习过程更平稳且能够高维采样,适用于海量网约车进行多智能体最佳重定位策略的学习,并且使用几何路网结构表示城市道路环境,可以将GNN作为函数逼近器学习路网几何信息,此外,引入基于动作价值函数的动作采样策略,增加了动作选择的随机性,从而有效防止竞争.基于Python构建的网约车重定位仿真实验结果如下:GA2C算法的订单响应率为84.2%,显著高于所有对比实验结果;在订单分布对比实验结果中,GA2C在均匀分布、中心状布局、块状布局和棋盘状布局所对应的相对提升分别为1.17%、6.02%、13.12%和14.55%.上述实验结果表明,GA2C算法能够有效对网约车进行重定位,当订单分布呈现明显差异性,且不同需求区域之间距离较近时,能够更好的学习动态需求变化,通过重定位网约车获得最大订单响应率.
ISSN:1000-565X
DOI:10.12141/j.issn.1000-565X.230148