基于RG-DDPG的直流微网能量管理策略

针对分布式能源的随机性和间歇性给直流微网能量管理带来的巨大挑战,提出一种基于奖励指导深度确定性策略梯度(reward guidance deep deterministic policy gradient,RG-DDPG)的直流微网能量管理策略.该策略将直流微网的优化运行描述为一个马尔科夫决策过程,利用智能体与直流微网环境间的持续交互,自适应地学习能量管理决策,实现直流微网能量的优化管理.在策略训练过程中,采用基于时序差分误差(temporal difference error,TD-error)的优先经验回放机制减少RG-DDPG在直流微网运行环境中学习、探索的随机性和盲目性,提升所提能量优...

Full description

Saved in:
Bibliographic Details
Published in中国电力 Vol. 56; no. 7; pp. 85 - 94
Main Authors 李建标, 陈建福, 高滢, 裴星宇, 吴宏远, 陆子凯, 周少雄, 曾杰
Format Magazine Article
LanguageChinese
Published 广东电网有限责任公司直流配用电研究中心,广东珠海 519000%南方电网电力科技股份有限公司,广东广州 510000%清科优能(深圳)技术有限公司,广东深圳 518000 01.07.2023
Subjects
Online AccessGet full text
ISSN1004-9649
DOI10.11930/j.issn.1004-9649.202210086

Cover

Loading…
More Information
Summary:针对分布式能源的随机性和间歇性给直流微网能量管理带来的巨大挑战,提出一种基于奖励指导深度确定性策略梯度(reward guidance deep deterministic policy gradient,RG-DDPG)的直流微网能量管理策略.该策略将直流微网的优化运行描述为一个马尔科夫决策过程,利用智能体与直流微网环境间的持续交互,自适应地学习能量管理决策,实现直流微网能量的优化管理.在策略训练过程中,采用基于时序差分误差(temporal difference error,TD-error)的优先经验回放机制减少RG-DDPG在直流微网运行环境中学习、探索的随机性和盲目性,提升所提能量优化管理策略的收敛速度.同时,在训练回合间利用累计奖励的大小构造直流微网能量管理的优秀回合集,加强RG-DDPG智能体在训练回合间的联系,最大化利用优秀回合的训练价值.算例仿真结果表明:所提策略能够实现直流微网内能量的合理分配.相较于基于深度Q网络(deep Q-network,DQN)和粒子群算法(particle swarm optimization,PSO)的能量管理策略,所提策略能使直流微网日平均运行成本分别降低11.16%和 7.10%.
ISSN:1004-9649
DOI:10.11930/j.issn.1004-9649.202210086